処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2020110278 - 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

Document

明 細 書

発明の名称 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

技術分野

0001  

背景技術

0002  

先行技術文献

特許文献

0003  

発明の概要

発明が解決しようとする課題

0004  

課題を解決するための手段

0005   0006   0007   0008   0009   0010  

図面の簡単な説明

0011  

発明を実施するための形態

0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089  

符号の説明

0090  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18  

図面

1   2   3   4   5   6   7   8   9   10  

明 細 書

発明の名称 : 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

技術分野

[0001]
 本発明は、情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法等に関する。

背景技術

[0002]
 機械学習を用いて画像から認識対象の検出処理を行う手法が知られている。例えば特許文献1には、機械学習を用いて医用画像から病変を検出する手法が開示されている。特許文献1では、教師データは、複数の病変疑い領域画像と、その病変部の種別を示す画像特徴ラベルと、を含み、その教師データに基づいて機械学習が行われる。画像特徴ラベルは、面積大小、又は濃淡、管状、骨接触等である。

先行技術文献

特許文献

[0003]
特許文献1 : 特開2018-61771号公報

発明の概要

発明が解決しようとする課題

[0004]
 機械学習を用いた検出処理において、画像に明確な位置形状が表示されない対象物を精度良く検出し、その対象物の位置形状を表示するという課題がある。上記の従来技術では、病変の種別を画像特徴量に基づいて学習及び検出することはできるが、画像において明確な位置形状が表示されない対象物を検出及び表示することはできない。

課題を解決するための手段

[0005]
 本発明の一態様は、学習済みモデルを記憶する記憶部と、前記学習済みモデルに基づく検出処理を行う処理部と、を含み、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、前記処理部は、前記対象物が画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。
[0006]
 また本発明の他の態様は、学習済みモデルを記憶する記憶部と、前記学習済みモデルに基づく検出処理を行う処理部と、を含み、前記学習済みモデルは、内視鏡手術の手順において用いられるランドマークが画角内に入るように撮像された学習用画像に対して、前記ランドマークの位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記ランドマークの位置形状を出力するように学習された学習済みモデルであり、前記処理部は、前記ランドマークが画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記ランドマークの位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理システムに関係する。
[0007]
 また本発明の更に他の態様は、上記のいずれかに記載の情報処理システムを有するプロセッサユニットと、前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、前記プロセッサユニットに接続され、前記対象物の位置形状を示す前記検出情報が重畳された前記検出用画像を表示する前記表示部と、を含む内視鏡システムに関係する。
[0008]
 また本発明の更に他の態様は、ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出用画像における前記対象物の位置形状を示す検出情報を前記検出用画像に重畳して表示部に表示させるように、コンピュータを機能させる学習済みモデルであって、前記ニューラルネットワークは、データを入力する入力層と、前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、前記中間層から出力される演算結果に基づき、データを出力する出力層と、を備え、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習されている学習済みモデルに関係する。
[0009]
 また本発明の更に他の態様は、上記に記載の学習済みモデルを記憶した情報記憶媒体に関係する。
[0010]
 また本発明の更に他の態様は、学習済みモデルに基づく検出処理を行う情報処理方法であって、前記学習済みモデルは、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、前記対象物が画角内に入るように撮像された検出用画像に対して、前記学習済みモデルに基づく前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させる情報処理方法に関係する。

図面の簡単な説明

[0011]
[図1] 本実施形態の情報処理システム、及び情報処理システムを含む内視鏡システムの構成例。
[図2] 図2(A)~図2(C)は、画像中に明確な位置形状が表示されない対象物の一例。
[図3] 本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャート。
[図4] アノテーションの例。
[図5] アノテーションにより生成された教師データの例。
[図6] トラッキングによる自動タグ付けを説明する図。
[図7] 学習装置の構成例。
[図8] 学習の手順を示すフローチャート。
[図9] 検出及び表示の手法を説明するためのブロック図。
[図10] 検出された対象物の位置形状が表示された画像の例。

発明を実施するための形態

[0012]
 以下、本発明の実施形態(以下、「本実施形態」という。)について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。例えば以下では腹腔鏡下胆のう摘出手術を例に説明するが、本実施形態の適用対象は腹腔鏡下胆のう摘出手術に限定されない。即ち、作業者により画像にアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、本実施形態を適用可能である。
[0013]
 1.情報処理システム、内視鏡システム
 図1は、本実施形態の情報処理システム10、及び情報処理システム10を含む内視鏡システム100の構成例である。内視鏡システム100は、プロセッサユニット1と、内視鏡スコープ2と、表示部3と、を含む。また内視鏡システム100は操作部9を更に含んでもよい。
[0014]
 内視鏡スコープ2の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ2からプロセッサユニット1へ送信される。
[0015]
 プロセッサユニット1は、内視鏡システム100における種々の処理を行う装置である。例えばプロセッサユニット1は、内視鏡システム100の制御、及び画像処理等を行う。プロセッサユニット1は、内視鏡スコープ2からの撮像データを受信する撮像データ受信部8と、学習済みモデルにより撮像データから対象物を検出する情報処理システム10と、を含む。
[0016]
 撮像データ受信部8は、例えば内視鏡スコープ2のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。
[0017]
 情報処理システム10は、学習済みモデルを記憶する記憶部7と、記憶部7に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部4と、を含む。
[0018]
 記憶部7は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部7には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム10に入力され、その学習済みモデルを記憶部7が記憶してもよい。
[0019]
 処理部4は、学習済みモデルによる推論によって画像から対象物を検出する検出部5と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部3に表示させる出力部6と、を含む。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部5はCPU等の汎用プロセッサである。この場合、記憶部7は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部5は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。この場合、記憶部7は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。
[0020]
 表示部3は、出力部6から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置である。
[0021]
 操作部9は、作業者が内視鏡システム100を操作するための装置である。例えば、操作部9は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部6は、操作部9からの入力情報に基づいて、対象物の表示態様を変更してもよい。
[0022]
 なお、上記では情報処理システム10がプロセッサユニット1に含まれるが、情報処理システム10の一部又は全部がプロセッサユニット1の外部に設けられてもよい。例えば、記憶部7と検出部5がPC又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部8は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部6に送信する。出力部6は、受信した情報を画像に重畳して表示部3に表示させる。
[0023]
 内視鏡下の外科手術において、画像に明確な位置形状が表示されない対象物を作業者が識別しにくい場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。このとき、熟練してない医師が、不明瞭なランドマークを見分けにくい場合がある。なお、位置形状は位置及び形状のことである。
[0024]
 本実施形態の内視鏡システム100は、画像中に明確な位置形状が表示されない対象物を検出し、その検出された対象物を示す情報を作業者に提示する。これにより、例えば不明瞭なランドマークの位置形状を示す情報を画像上に提示できる。また、本実施形態では、教師データを作成する際に、画像に明確な位置形状が表示されない対象物にアノテーションが付される。例えば、内視鏡下の外科手術に熟練した医師等がアノテーションを行う。このような教師データによって機械学習された学習済みモデルで対象物を検出することで、熟練医師等の暗黙知に基づく対象物の検出及び表示を実現する。
[0025]
 図2(A)~図2(C)に、画像中に明確な位置形状が表示されない対象物の一例を示す。図2(A)においては総胆管が、また、図2(B)においては胆のう管が、図2(C)においてはルビエレ溝が対象物となる。なお図2(A)~図2(C)は模式図であり、実際の臓器又は組織の正確な形状を示すものではない。図4以降についても同様である。
[0026]
 図2(A)、図2(B)は、対象物が臓器又は組織に覆われている状態の例である。この場合、対象物がカメラの画角内に入っていたとしても、対象物そのものは画像上では見えない、または、位置形状が明確でない。具体的には、図2(A)に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、総胆管は肝臓に覆われており、総胆管そのものは画像に表示されない。総胆管は、総肝管と胆のう管とが合流する部分と、十二指腸との間を接続する管である。また図2(B)に示すように、胆のう管は脂肪に覆われており、胆のう管そのものは画像に表示されない。胆のう管は、胆のうと総胆管とを接続する管である。
[0027]
 図2(C)は、画像中に対象物が露出して視認できるが、対象物の境界が曖昧な状態の例である。図2(C)に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。ルビエレ溝は、肝臓右葉の表面に存在する溝である。また、画像で視認できるが境界が曖昧な対象物の例として、肝臓左葉内側の下縁であるS4下縁がある。
[0028]
 総胆管及び胆のう管、ルビエレ溝、S4下縁は、腹腔鏡下胆のう摘出術におけるランドマークである。ランドマークとは、手術の手順を進める際に用いられる目印である。本実施形態では、これらのランドマークが対象物としてアノテーションされることで教師データが作成され、その教師データにより機械学習が行われる。そして、内視鏡システム100の情報処理システム10が学習済みモデルによりランドマークを検出することで、画像中に明確な位置形状が表示されないランドマークの位置形状を画像上に表示する。
[0029]
 以上に説明したように、本実施形態の情報処理システム10は、学習済みモデルを記憶する記憶部7と、学習済みモデルに基づく検出処理を行う処理部4と、を含む。学習済みモデルは、教師データに基づいて、学習用画像における対象物の位置形状を出力するように学習された学習モデルである。教師データは、学習用画像に対して、対象物の位置形状を示すアノテーションが付されたデータである。学習用画像は、画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された画像である。処理部4は、対象物が画角内に入るように撮像された検出用画像に対して検出処理を行うことで、対象物の位置形状を示す検出情報を出力する。そして処理部4は、検出情報を検出用画像に重畳して表示部3に表示させる。
[0030]
 このようにすれば、機械学習を用いた検出処理において、画像に明確な位置形状が表示されない対象物を精度良く検出し、その対象物の位置形状を表示できる。また対象物の位置形状を示すアノテーションが付された教師データにより機械学習することで、熟練医師等の暗黙知に基づく対象物の検出及び表示を実現できる。
[0031]
 また本実施形態では、学習用画像は、対象物が他の臓器又は他の組織で覆われている状態、または前記対象物が露出して視認できるが、境界が曖昧な状態を撮像した画像である。
[0032]
 即ち、対象物が他の臓器又は他の組織で覆われているため、画像において対象物の位置形状が明確ではない。または、対象物が露出して視認できるが、画像において対象物の境界が曖昧である。本実施形態では、このような対象物の位置形状を、学習済みモデルにより検出することで、その対象物の位置形状を示す情報を画像に表示させることができる。
[0033]
 また本実施形態では、対象物は、所定の外科手術シーンにおける所定のランドマークである。
[0034]
 図2(A)~図2(C)で説明したように、画像上においてランドマークの位置形状が明確でない場合がある。本実施形態では、このようなランドマークの位置形状を、学習済みモデルにより検出することで、そのランドマークの位置形状を示す情報を画像に表示させることができる。
[0035]
 また本実施形態では、学習用画像は、ルビエレ溝及びS4下縁、総胆管、胆のう管のうち、少なくとも1つが画角内に入るように撮像された画像である。処理部4は、ルビエレ溝及びS4下縁、総胆管、胆のう管のうち、少なくとも1つの位置形状を示す検出情報を出力する。
[0036]
 本実施形態によれば、ルビエレ溝及びS4下縁、総胆管、胆のう管のうち1又は複数の位置形状を示す情報が、検出及び表示される。例えば胆のう管を例にとると、図2(B)で説明したように、胆のう管は脂肪で覆われているため、画像において胆のう管の位置形状は明確でない。本実施形態では、このような胆のう管の位置形状を、学習済みモデルにより検出することで、脂肪に覆われた胆のう管の位置形状を示す情報を、画像に表示させることができる。
[0037]
 また、本実施形態の学習済みモデルは情報記憶媒体に記憶されてもよい。情報記憶媒体は、コンピュータにより読み取り可能な媒体である。情報記憶媒体としては、DVD又はCD等の光ディスク、ハードディスク、不揮発性メモリ又はROM等の半導体メモリなど、種々の記憶媒体を想定できる。情報処理システム10は、情報記憶媒体に格納されるプログラムとデータに基づいて本実施形態における種々の処理を行う。即ち情報記憶媒体には、本実施形態の情報処理システム10としてコンピュータを機能させるためのプログラムが記憶される。コンピュータは、入力装置、及び処理部、記憶部、出力部を備える装置である。
[0038]
 また本実施形態の学習済みモデルは、ニューラルネットワークを含むことができる。ニューラルネットワークは、データを入力する入力層と、入力層を通じて入力されたデータに対し演算処理を行う中間層と、中間層から出力される演算結果に基づいてデータを出力する出力層と、を含む。本実施形態において、入力層に入力されるデータは、学習用画像である。また出力層から出力されるデータは、対象物の位置形状を示す検出情報である。これらの入力データ及び出力データの詳細については後述する。なお、ニューラルネットワークとして、公知の様々なAI(Artificial Intelligence)技術を採用できる。ニューラルネットワークを利用するためには、学習や推論アルゴリズムを実行するためのソフトウェア開発を行う必要があるが、市販化、無償公開されたソフトウェアパッケージも現在複数入手可能であり、それらを利用することもできる。また、ニューラルネットワークにおける機械学習のアルゴリズムとして、公知の種々な学習アルゴリズムを採用でき、誤差逆伝播法を用いた教師有り学習アルゴリズムが好適である。
[0039]
 また本実施形態の情報処理システム10が行う処理は、情報処理方法として実現されてもよい。即ち、情報処理方法は、対象物が画角内に入るように撮像された検出用画像に対して、上述の学習済みモデルに基づく検出処理を行うことで、対象物の位置形状を示す検出情報を出力し、その検出情報を検出用画像に重畳して表示部に表示させる方法である。
[0040]
 2.詳細な実施形態
 以下、詳細な実施形態について説明する。図3は、本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャートである。
[0041]
 ステップS1~S3は、教師データを作成するステップである。ステップS1において、作業者が手術動画の所定フレーム画像にタグ付けを行う。作業者は、例えば対象手術に習熟した医師等である。後述するように、所定フレーム画像は、動画においてシーン変化した後の最初のフレーム画像である。次に、ステップS2において、学習装置が、タグ付けされた領域をトラッキングすることで、教師データを作成する。或いは、ステップS3に示すように、作業者が各フレーム画像にタグ付けすることで、教師データが作成されてもよい。ステップS1~S3においてタグ付けされた手術動画の各フレーム画像が学習用画像となる。なお、画像にタグ付けすることをアノテーションと呼ぶ。
[0042]
 ステップS4は、学習ステップである。即ち、学習装置が、ステップS1~S3で作成された教師データを用いて機械学習を行う。この機械学習により得られた学習済みモデルは、情報処理システム10の記憶部7に記憶される。
[0043]
 ステップS5は、学習したAIにより推論を行うステップである。即ち、情報処理システム10の処理部4が、記憶部7に記憶された学習済みモデルに基づいて検出用画像から対象物を検出する。処理部4は、検出された対象物を示す情報を検出用画像に表示させる。
[0044]
 次に教師データを作成する手法を説明する。教師データの作成は、画像中に明確な位置形状が表示されない対象物を画角内に撮像した学習用画像について、対象物の位置形状を示すアノテーションを付すことによって行われる。上述したように、対象物は、外科手術シーンにおける所定のランドマークとすることができる。
[0045]
 「画像中に明確な位置形状が表示されない」とは、輝度又はコントラストに基づき境界を検出する手法によって、対象物の位置形状を特定できない状態を意味する。例えば図2(A)~図2(C)で説明したように、腹腔鏡下胆のう摘出術における、以下の対象物である。第1例は、他の臓器又は組織等で覆われており、位置形状の境界が曖昧、又は視認できない対象物である。例えば、総胆管と胆のう管である。第2例は、画像中に露出して視認できるが、境界が曖昧な対象物である。例えば、ルビエレ溝とS4下縁である。
[0046]
 画像中に明確な位置形状が表示されない上記ランドマークについて、作業者の暗黙知に基づいて、画像内の位置形状を特定し、アノテーションデータとして与える。アノテーションを行う作業者は、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等である。
[0047]
 図4に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓KZと、胆のうTNNと、処置具TL1、TL2とが撮像されている。この学習用画像の画角内には、総胆管及び胆のう管、ルビエレ溝、S4下縁が含まれている。図4において、肝臓右葉の実線部分は、ルビエレ溝の開始部分(比較的明瞭な部分)を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるS4下縁の領域を示す。
[0048]
 アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、S4下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグTGAと、胆のう管を示すタグTGBと、ルビエレ溝を示すタグTGCと、S4下縁を示すタグTGDが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業差によって指定された学習用画像上の領域にタグを付す。
[0049]
 図5に、アノテーションにより生成された教師データの例を示す。図5に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、以下ではフラグデータと呼ぶ。フラグデータは、タグTGA~TGDの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された4層のフラグデータと、で構成されている。
[0050]
 図6は、トラッキングによる自動タグ付けを説明する図である。図6には、内視鏡スコープ2で撮像された動画のフレーム画像を示す。これらの各フレーム画像が学習用画像となる。この動画のうち、所定のフレーム画像F1、Fx+1が選択される。xは1以上の整数である。作業者が所定のフレーム画像F1、Fx+1を選択してもよいし、学習装置が画像処理によるシーン検出等によって所定のフレーム画像F1、Fx+1を選択してもよい。作業者は、選択された所定のフレーム画像F1、Fx+1に対してタグ付けを行う。
[0051]
 所定のフレーム画像F1、Fx+1は、例えば手術手順が切り替わるときのフレーム画像、又は動画の明暗が変化したときのフレーム画像、フレーム間のブレが大きく変化するときのフレーム画像、撮像する対象物が切り替わるときのフレーム画像等である。
[0052]
 タグ付けが行われた所定のフレーム画像以降のフレーム画像は、トラッキングによってタグ付けされる。例えば、タグ付けされた領域から輪郭を抽出し、輪郭上の点をトラッキングする方法でタグ付けが行われる。或いは、テンプレートマッチングを用いて被写体の動きを検出し、その検出された動きに基づいてタグ付けが行われてもよい。
[0053]
 具体的には、フレーム画像F1に対して作業者がタグTGE1を付したとする。フレーム画像FxとFx+1の間でシーン変化があったとすると、フレーム画像F2~Fxがトラッキングによるタグ付け対象となる。例えば、F1とF2の間における被写体の動きベクトルがトラッキングにより検出される。図5で説明したように、タグTGE1はフラグデータである。このフラグマップを、検出された動きベクトルに従って平行移動されることで、F2のフラグデータが生成される。これがF2のタグTGE2となる。同様にして、F3~Fxに対してタグTGE3~TGExが生成される。
[0054]
 同様に、シーン変化後のフレーム画像Fx+1に対して作業者がタグTGF1を付したとする。上記と同様にして、トラッキングにより、フレーム画像Fx+2~Fx+yに対してタグTGF2~TGFyが付される。yは1以上の整数である。
[0055]
 以上の実施形態によれば、学習用画像の画素に対してフラグが与えられることによって、アノテーションが行われる。フラグが与えられる画素は、学習用画像において対象物の位置形状に属する画素として判断された画素である。
[0056]
 このようにすれば、作業者が、画像上に位置形状が明確に表示されない対象物を学習用画像から識別し、その識別した領域等を指定することによって、その領域内の画素にタグ付けできる。また、画素に対してフラグが与えられた教師データにより機械学習を行うことで、学習済みモデルが、画素に対してフラグが与えられたデータを出力できるようになる。このフラグが与えられた画素は、検出された対象物の位置及び形状に対応している。このため、学習済みモデルが出力するデータを検出用画像に重畳することで、検出された対象物の位置及び形状を表示できる。
[0057]
 また本実施形態では、各フレーム画像が学習用画像である動画の所定フレーム画像F1、Fx+1において、手動アノテーションされた領域に対してフラグが与えられる。所定フレーム画像F1、Fx+1以降のフレーム画像において、手動アノテーションされた領域がトラッキングされ、そのトラッキングされた領域に対してフラグが与えられる。
[0058]
 このようにすれば、作業者は、動画の所定フレーム画像F1、Fx+1にのみアノテーションを行えばよいため、作業者の負担が軽減される。また、トラッキングにより教師データが自動生成されるので、画像上における被写体の位置又は向き等が変化した複数の教師データが得られる。この教師データにより機械学習を行うことで、学習済みモデルによる対象物検出の精度を向上できる。
[0059]
 次に、学習手法について説明する。
 図7は、学習装置50の構成例である。学習装置50は、処理部51と記憶部52と操作部53と表示部54とを含む。例えば、学習装置50はPC等の情報処理装置である。処理部51はCPU等のプロセッサである。処理部51は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部52は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部53はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部54は液晶ディスプレイ等の表示装置である。
[0060]
 なお、図1の情報処理システム10が学習装置を兼ねてもよい。この場合、処理部4、記憶部7、操作部9、表示部3が、それぞれ学習装置50の処理部51、記憶部52、操作部53、表示部54に対応する。
[0061]
 図8は、学習の手順を示すフローチャートである。
[0062]
 教師データは記憶部52に記憶されている。ステップS11において、処理部51は記憶部52から教師データを読み出す。例えば1回の推論に対して1つの学習用画像と、それに対応したフラグデータとが読み出される。なお、1回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。
[0063]
 ステップS12において、処理部51は対象物の位置形状を推定し、その結果を出力する。即ち、処理部51は、ニューラルネットワークに学習用画像を入力する。処理部51は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すフラグデータを出力する。
[0064]
 ステップS13において、処理部51は、推定した位置形状と、アノテーションが示す位置形状を比較し、その結果に基づいて誤差を計算する。即ち、処理部51は、ニューラルネットワークから出力されたフラグデータと、教師データのフラグデータとの誤差を計算する。
[0065]
 ステップS14において、処理部51は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部51は、ステップS13で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。
[0066]
 ステップS15において、処理部51は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部51はステップS11~S15を再び実行する。パラメータ調整が規定回数終了した場合、ステップS16に示すように処理部51は学習処理を終了する。又は、処理部51は、ステップS13で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部51はステップS11~S15を再び実行する。誤差が規定値以下になった場合、ステップS16に示すように処理部51は学習処理を終了する。
[0067]
 本実施形態において、画像上に位置形状が明確に表示されない対象物が、AIの検出対象となっている。しかし、学習用画像は医療用画像であり、学習用画像には、対象物以外にも、対象物を覆う臓器又は組織、或いはそれらの周辺に存在する臓器又は組織等、様々な被写体が写っている。機械学習においては、例えば、これらの被写体と、アノテーションされた対象物の位置形状との位置関係等が学習される。これによって、学習済みモデルは、医療用画像である検出用画像から、画像上に位置形状が明確に表示されない対象物の位置形状を推定できるようになる。
[0068]
 次に、情報処理システム10が対象物を検出及び表示する手法について説明する。図9は、検出及び表示の手法を説明するためのブロック図である。
[0069]
 検出部5は、内視鏡スコープ2で撮像された検出用画像を学習済みモデルに入力する。検出部5は、学習済みモデルによる検出処理を行うことで、検出用画像における対象物の位置形状を検出する。即ち、検出結果は検出フラグデータとして出力される。検出フラグデータは、検出された対象物の位置形状に対応した画素にフラグが付されたフラグマップである。例えば、図5で説明した教師データと同様に、各対象物に対応した4層の検出フラグデータが出力される。
[0070]
 図10は、検出された対象物の位置形状が表示された画像の例である。KZ’は肝臓であり、TNT’は胆のうであり、TL1’、TL2’は処置具である。
[0071]
 出力部6は、検出された対象物の位置形状を示す情報を検出用画像上に重畳して表示部3に表示させる。即ち、出力部6は、フラグデータにおいてフラグが付された画素に対応した検出用画像の画素に対して、画像処理を行う。出力部6は、画像処理後の検出用画像を表示部3に出力する。例えば、出力部6は、フラグが付された画素に対応した検出用画像の画素に対して、所定色を付す。或いは、出力部6は、フラグが付された画素に対応した検出用画像の画素に対して、所定透過率で所定色をスーパーインポーズする。図10に示すように、これらの画像処理によって、対象物の位置形状に対応した領域MKA~MKDが強調表示される。MKAは、総胆管の位置形状を示す領域である。MKBは、胆のう管の位置形状を示す領域である。MKCは、ルビエレ溝の位置形状を示す領域である。MKDは、S4下縁の位置形状を示す領域である。以上のようにして、外科手術中に撮像される手術動画についてリアルタイムに対象物を検出して、手術動画上に位置情報を重畳表示することができる。
[0072]
 検出された対象物の位置形状を表示する手法は、以下のように種々考えられる。なお以下の手法は適宜に組み合わされてもよい。
[0073]
 第1手法では、検出部5は、他の臓器又は他の組織で覆われている対象物と共に、他の臓器又は他の組織で覆われずに露出した対象物を検出可能である。出力部6は、検出情報を検出用画像に重畳する際に、他の臓器又は他の組織で覆われている対象物と、他の臓器又は他の組織で覆われずに露出した対象物とで、位置形状の表示態様を異ならせる。
[0074]
 即ち、出力部6は、他の臓器又は他の組織で覆われている対象物を示すフラグデータを第1表示態様で検出用画像に重畳し、他の臓器又は他の組織で覆われずに露出した対象物を示すフラグデータを第2表示態様で検出用画像に重畳する。例えば、第1表示態様では、フラグが付された画素に第1透過率で所定色が重畳され、第2表示態様では、フラグが付された画素に第2透過率で所定色が重畳される。第1透過率は第2透過率より高い。或いは、第1表示態様では、フラグが付された画素に第1所定色が重畳され、第2表示態様では、フラグが付された画素に第2所定色が重畳される。第1所定色と第2所定色は異なる色である。例えば腹腔鏡下胆のう摘出手術において、出力部6は、総胆管及び胆のう管の位置形状に対応した画素に、赤色等の第1所定色を付す。また出力部6は、ルビエレ溝及びS4下縁の位置形状に対応した画素に、第1所定色とは異なる黄色等の第2所定色を付す。
[0075]
 このようにすれば、内視鏡システム100を用いる作業者が、表示されている対象物が他の臓器または組織で覆われているか、露出しているかを、容易に認識できる。
[0076]
 第2手法では、出力部6は、検出情報を検出用画像に重畳する際に、対象物に対応した所定の重要度に基づいて、位置形状の表示態様を異ならせる。
[0077]
 即ち、出力部6は、第1重要度である第1対象物の位置形状を示すフラグデータを第1表示態様で検出用画像に重畳し、第2重要度である第2対象物の位置形状を示すフラグデータを第2表示態様で検出用画像に重畳する。例えば、第1重要度が第2重要度より高い場合、出力部6は、第2対象物の位置形状よりも、第1対象物の位置形状を強調して表示させる。例えば腹腔鏡下胆のう摘出手術において、総胆管が第1重要度に設定され、胆のう管及びルビエレ溝、S4下縁が第2重要度に設定されたとする。出力部6は、総胆管の位置形状に対応した画素に、赤色等の第1所定色を付す。また出力部6は、胆のう管及びルビエレ溝、S4下縁の位置形状に対応した画素に、第1所定色より目立たない黄色等の第2所定色を付す。或いは、出力部6は、胆のう管及びルビエレ溝、S4下縁の位置形状に対応した画素に色を付さない。
[0078]
 このようにすれば、画像に複数の対象物が表示されている場合において、重要度の高い対象物をより強調して作業者に提示できる。例えば、腹腔鏡下胆のう摘出手術のカロー三角展開シーンにおいて、胆のうを鉗子でめくりS4下縁を確認するシーンのとき、S4下縁の重要度を高くし、他のランドマークよりも強調して表示することができる。
[0079]
 例えば出力部6は、内視鏡システム100の操作部9から入力された情報に基づいて、シーンを判断する。出力部6は、判断したシーンに対応して対象物の重要度を決定する。或いは、シーンに応じて重要度が決定されるのではなく、予め決められた重要度が用いられてもよい。
[0080]
 第3手法では、出力部6は、検出情報を検出用画像に重畳する際に、検出された対象物の名称を付記表示する。
[0081]
 即ち、出力部6は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その表示された位置形状に対して、対象物の名称を付記する。また更に、出力部6は、対象物の属性情報を付記表示してもよい。属性情報は、例えば対象物が他の臓器または組織で覆われているか、露出しているか等を示す情報である。例えば腹腔鏡下胆のう摘出手術において、出力部6は、総胆管の位置形状に対応した領域に所定色を付し、その所定色が付された領域を指し示す名称として、「総胆管」を表示する。胆のう管、ルビエレ溝、S4下縁についても同様である。
[0082]
 このようにすれば、位置形状が表示されている対象物の名称或いは属性情報を、作業者に提示できる。作業者は、位置形状が示された各領域が、どの対象物を示しているのかを確認しながら、手術の手順を進めることができる。
[0083]
 第4手法では、出力部6は、検出情報を検出用画像に重畳する際に、検出された対象物の検出結果の確からしさを付記表示する。
[0084]
 即ち、出力部6は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その推論の確からしさを示す情報を付記する。例えば、検出部5は、フラグデータと共に、推論の確からしさを示す確率データを出力する。例えば、ある画素に、胆のう管を示す検出フラグが付されている場合、その画素に確からしさのデータが対応付けられる。ここでの確からしさは、その画素が胆のう管であるとの推論の確からしさである。この画素に確からしさのデータが対応付けられたものが、確率データである。例えば、出力部6は、胆のう管についての確率データを画面内で平均した値を、胆のう管の位置形状に付記する。総胆管、ルビエレ溝、S4下縁についても同様である。
[0085]
 このようにすれば、位置形状が表示されている対象物について推論の確からしさを、作業者に提示できる。手術手順を進めるのは、医師等の作業者である。推論の確からしさが提示されることで、作業者は、推論された対象物の位置形状がどの程度信用できるものであるかを考慮しながら、手術手順を進めていくことができる。
[0086]
 第5手法では、出力部6は、検出情報を検出用画像に重畳する際に、検出された対象物のサイズ情報を付記する。
[0087]
 即ち、出力部6は、検出された対象物の位置形状を示すフラグデータを検出用画像に重畳すると共に、その表示された位置形状に対して、対象物のサイズ情報を付記する。対象物のサイズを測定する方法として、術中に撮像された鉗子などの大きさが既知の物体を参照する方法がある。例えば、出力部6は、検出された位置形状の画像上における長さ又は面積等を求める。また出力部6は、術中に撮像された鉗子などの画像上における長さ又は面積等を求める。鉗子の実際の長さ又は面積は既知であるとする。出力部6は、検出された位置形状の画像上における長さ又は面積等と、術中に撮像された鉗子などの画像上における長さ又は面積等とを比較することで、対象物のサイズ情報を取得する。またステレオ内視鏡であれば、出力部6は、視差情報から対象物のサイズを計測することが可能である。
[0088]
 このようにすれば、位置形状が表示されている対象物のサイズ情報を、作業者に提示できる。これにより、作業者は、推論された対象物のサイズを考慮しながら、手術手順を進めていくことができる。例えば腹腔鏡下胆のう摘出手術では、総胆管を切断しないようにしつつ、胆のう管を切断する。このとき、総胆管又は胆のう管の長さ情報が、手術における参考情報となるが、これらの長さには個人差がある。本実施形態では、総胆管又は胆のう管の長さ情報が作業者に提示されるので、作業者は、個人差等を考慮しつつ手術手順を進めることができる。
[0089]
 以上、本発明を適用した実施形態およびその変形例について説明したが、本発明は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

符号の説明

[0090]
1 プロセッサユニット、2 内視鏡スコープ、3 表示部、4 処理部、5 検出部、6 出力部、7 記憶部、8 撮像データ受信部、9 操作部、10 情報処理システム、50 学習装置、51 処理部、52 記憶部、53 操作部、54 表示部、100 内視鏡システム、F1,Fx+1 所定フレーム画像、KZ 肝臓、TGA~TGD タグ、TL1,TL2 処置具、TNN 胆のう

請求の範囲

[請求項1]
 学習済みモデルを記憶する記憶部と、
 前記学習済みモデルに基づく検出処理を行う処理部と、
 を含み、
 前記学習済みモデルは、
 画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、
 前記処理部は、
 前記対象物が画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
[請求項2]
 請求項1において、
 前記学習用画像は、
 前記対象物が他の臓器又は他の組織で覆われている状態、または前記対象物が露出して視認できるが、境界が曖昧な状態を撮像した画像であることを特徴とする情報処理システム。
[請求項3]
 請求項1又は2において、
 前記アノテーションは、
 前記学習用画像において前記対象物の位置形状に属する画素として判断された画素に対してフラグが与えられることによって、行われることを特徴とする情報処理システム。
[請求項4]
 請求項3において、
 各フレーム画像が前記学習用画像である動画の所定フレーム画像において、手動アノテーションされた領域に対して前記フラグが与えられ、
 前記所定フレーム画像以降のフレーム画像において、前記手動アノテーションされた領域がトラッキングされ、前記トラッキングされた領域に対して前記フラグが与えられることを特徴とする情報処理システム。
[請求項5]
 請求項1乃至4のいずれか一項において、
 前記対象物は、
 所定の外科手術シーンにおける所定のランドマークであることを特徴とする情報処理システム。
[請求項6]
 請求項5において、
 前記学習用画像は、
 ルビエレ溝及びS4下縁、総胆管、胆のう管のうち、少なくとも1つが画角内に入るように撮像された画像であり、
 前記処理部は、
 前記ルビエレ溝及び前記S4下縁、前記総胆管、前記胆のう管のうち、少なくとも1つの位置形状を示す前記検出情報を出力することを特徴とする情報処理システム。
[請求項7]
 請求項1乃至6のいずれか一項において、
 前記処理部は、
 他の臓器又は他の組織で覆われている前記対象物と、他の臓器又は他の組織で覆われずに露出した前記対象物とを検出可能であり、
 前記検出情報を前記検出用画像に重畳する際に、他の臓器又は他の組織で覆われている前記対象物と、他の臓器又は他の組織で覆われずに露出した前記対象物とで、位置形状の表示態様を異ならせることを特徴とする情報処理システム。
[請求項8]
 請求項1乃至6のいずれか一項において、
 前記処理部は、
 前記検出情報を前記検出用画像に重畳する際に、前記対象物に対応した所定の重要度に基づいて、位置形状の表示態様を異ならせることを特徴とする情報処理システム。
[請求項9]
 請求項1乃至8のいずれか一項において、
 前記処理部は、
 前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物の名称を付記表示することを特徴とする情報処理システム。
[請求項10]
 請求項1乃至9のいずれか一項において、
 前記処理部は、
 前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物の検出結果の確からしさを付記表示することを特徴とする情報処理システム。
[請求項11]
 請求項1乃至10のいずれか一項において、
 前記処理部は、
 前記検出情報を前記検出用画像に重畳する際に、検出された前記対象物のサイズ情報を付記することを特徴とする情報処理システム。
[請求項12]
 請求項1乃至11のいずれか一項において、
 前記学習済みモデルは、
 前記学習用画像と、前記学習用画像において前記対象物の位置形状に属する画素として判断された画素に対してフラグが与えられたフラグデータと、を含む前記教師データに基づいて、学習され、
 前記処理部は、
 前記検出用画像に対して前記検出処理を行うことで、前記対象物の位置形状に属する画素に検出フラグが与えられた検出フラグデータを、前記検出情報として出力することを特徴とする情報処理システム。
[請求項13]
 請求項12において、
 前記処理部は、
 前記検出用画像の画素データに対して、前記検出フラグに基づく画素データを重畳処理することで、前記検出情報を前記検出用画像に重畳することを特徴とする情報処理システム。
[請求項14]
 学習済みモデルを記憶する記憶部と、
 前記学習済みモデルに基づく検出処理を行う処理部と、
 を含み、
 前記学習済みモデルは、
 内視鏡手術の手順において用いられるランドマークが画角内に入るように撮像された学習用画像に対して、前記ランドマークの位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記ランドマークの位置形状を出力するように学習された学習済みモデルであり、
 前記処理部は、
 前記ランドマークが画角内に入るように撮像された検出用画像に対して前記検出処理を行うことで、前記ランドマークの位置形状を示す検出情報を出力し、前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理システム。
[請求項15]
 請求項1乃至14のいずれか一項に記載の情報処理システムを有するプロセッサユニットと、
 前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、
 前記プロセッサユニットに接続され、前記対象物の位置形状を示す前記検出情報が重畳された前記検出用画像を表示する前記表示部と、
 を含むことを特徴とする内視鏡システム。
[請求項16]
 ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出用画像における前記対象物の位置形状を示す検出情報を前記検出用画像に重畳して表示部に表示させるように、コンピュータを機能させる学習済みモデルであって、
 前記ニューラルネットワークは、
 データを入力する入力層と、
 前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、
前記中間層から出力される演算結果に基づき、データを出力する出力層と、
 を備え、
 前記学習済みモデルは、
 画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習されていることを特徴とする学習済みモデル。
[請求項17]
 請求項16に記載の学習済みモデルを記憶した情報記憶媒体。
[請求項18]
 学習済みモデルに基づく検出処理を行う情報処理方法であって、
 前記学習済みモデルは、
 画像中に明確な位置形状が表示されない対象物が画角内に入るように撮像された学習用画像に対して、前記対象物の位置形状を示すアノテーションが付された教師データに基づいて、前記学習用画像における前記対象物の位置形状を出力するように学習された学習済みモデルであり、
 前記対象物が画角内に入るように撮像された検出用画像に対して、前記学習済みモデルに基づく前記検出処理を行うことで、前記対象物の位置形状を示す検出情報を出力し、
 前記検出情報を前記検出用画像に重畳して表示部に表示させることを特徴とする情報処理方法。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]