Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020194663 - TRACKING DEVICE, PRETAINED MODEL, ENDOSCOPE SYSTEM, AND TRACKING METHOD

Document

明 細 書

発明の名称 トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

技術分野

0001  

背景技術

0002   0003  

先行技術文献

特許文献

0004  

発明の概要

発明が解決しようとする課題

0005  

課題を解決するための手段

0006   0007   0008   0009  

図面の簡単な説明

0010  

発明を実施するための形態

0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101  

符号の説明

0102  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12   13  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17  

明 細 書

発明の名称 : トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

技術分野

[0001]
 本発明は、トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法等に関する。

背景技術

[0002]
 従来、動画に含まれる各フレーム画像において、指定された対象が画像上のどの位置に存在するかを推定する手法が知られている。以下、この手法をトラッキングと表記し、指定された対象をトラッキング対象と表記する。トラッキングとは、複数のフレーム画像間において、トラッキング対象がどのように移動したかを追跡する手法と言い換えることが可能である。
[0003]
 例えば特許文献1には、医療画像中の臓器を、当該臓器の輪郭点を用いてトラッキングする手法が開示されている。

先行技術文献

特許文献

[0004]
特許文献1 : 特開2007-222533号公報

発明の概要

発明が解決しようとする課題

[0005]
 輪郭点のトラッキング中に、誤った位置に輪郭点がトラッキングされる場合がある。誤ったトラッキング点についてトラッキングを継続した場合、誤差が蓄積することによってトラッキング精度が低下してしまう。

課題を解決するための手段

[0006]
 本開示の一態様は、複数のフレームを含む動画について、トラッキング対象のトラッキングを開始する開始フレームを設定するフレーム設定部と、前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する代表点抽出部と、前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行うトラッキング部と、前記トラッキング部によってトラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く処理を行う外れ値除去部と、前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する代表点更新部と、を含むトラッキング装置に関係する。
[0007]
 本開示の他の態様は、検出用画像を入力として受け付け、前記検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、複数のフレームを含む動画を取得し、トラッキング対象のトラッキングを開始する開始フレームを設定する工程と、前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する工程と、前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行う工程と、トラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く工程と、前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する工程と、前記開始フレーム以降の各フレームについて、トラッキングされた複数の前記代表点に基づいて生成された閉曲線の内部をアノテーション領域とするアノテーションデータを作成する工程と、によって生成された前記アノテーションデータが、前記動画に含まれる前記フレームの画像に対応付けられた訓練データに基づいて、機械学習されている学習済モデルに関係する。
[0008]
 本開示の他の態様は、上記の学習済モデルを記憶する記憶部と、前記検出用画像を撮像する内視鏡スコープと、前記学習済モデルに基づいて、前記検出用画像から前記所与の被写体の位置を検出する処理を行う処理部と、を含む内視鏡システムに関係する。
[0009]
 本開示の他の態様は、複数のフレームを含む動画を取得し、トラッキング対象のトラッキングを開始する開始フレームを設定する工程と、前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する工程と、前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行う工程と、トラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く工程と、前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する工程と、を含むトラッキング方法に関係する。

図面の簡単な説明

[0010]
[図1] トラッキング装置の構成例。
[図2] トラッキング装置における処理手順を示すフローチャート。
[図3] タグ領域に基づいて代表点を抽出する処理を説明する図。
[図4] トラッキング処理を説明する図。
[図5] 外れ値代表点を除去する処理を説明する図。
[図6] 代表点の更新処理を説明する図。
[図7] 代表点に基づいてタグ領域を生成する処理を説明する図。
[図8] 図8(A)~図8(C)は、画像中に明確な位置形状が表示されない対象物の一例。
[図9] 教師データ作成から対象物の検出までの一連の手順を示すフローチャート。
[図10] アノテーションの例。
[図11] アノテーションにより生成された教師データの例。
[図12] トラッキングによる自動タグ付けを説明する図。
[図13] 学習装置の構成例。
[図14] 学習の手順を示すフローチャート。
[図15] ニューラルネットワークの例。
[図16] 情報処理システムを含む内視鏡システムの構成例。
[図17] トラッキング誤差によって領域が分散することを説明する図。

発明を実施するための形態

[0011]
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
[0012]
1.概要
 従来、動画においてトラッキング対象のトラッキングを行う手法が広く利用されている。例えば、画像から物体認識を行う機械学習を実施するためには、大量のタグ付けされた画像が必要である。以下、タグ付けされた画像をタグ付け画像と表記する。タグ付け画像の生成は人手で行う必要があるため、非常に時間を要する作業である。図16を用いて後述する内視鏡下の外科手術を対象とした場合、タグ付けは当該外科手術に熟練した医師等が行う必要があり、大量の画像に対するタグ付けは容易でない。
[0013]
 タグ付け画像作成の負担を減らす方法として、所与のフレームにおいて作成されたタグをトラッキングし、新たなフレームにおいてトラッキング結果を用いてタグ付けする手法が考えられる。しかし、本実施形態において想定しているトラッキング対象は、画像上で複数の画素の集合となる領域である。
[0014]
 図17(A)、図17(B)は、領域ベースのトラッキングを行う従来手法を説明する模式図である。図17(A)は例えば人手でタグ付けされたタグ付け画像である。以下、画像中のタグに対応する領域をタグ領域と表記する。従来の領域ベースのトラッキング手法は、画素毎に処理を行う。図17(A)の例であれば、タグ領域に含まれる複数の画素の全ての画素について、それぞれトラッキングが行われる。トラッキングを複数のフレームにわたって継続していく場合、トラッキング回数が増えるとともに、即ち動画における時間が経過するとともに、トラッキング誤差が蓄積される。図17(B)は、所定回数のトラッキングを行った結果を表す。図17(B)に示すように、元画像において連続する1つの領域であったタグ領域が、トラッキング誤差の影響によって分散してしまう場合がある。
[0015]
 本実施形態にかかるトラッキング装置200は、タグ領域の輪郭抽出を行い、抽出結果である輪郭線を対象としてトラッキングを行う。そしてトラッキング結果である輪郭線の内部に対してマスク処理を行うことによって、新たなフレームにおけるタグ領域を決定する。なおトラッキング装置200は、輪郭線上の全ての点をトラッキングしてもよいし、輪郭線上の一部の点をトラッキングしてもよい。このようにすれば、タグ領域の分散が抑制されるため、タグ領域の適切なトラッキングが可能になる。
[0016]
 なお、輪郭線をトラッキングする場合であっても、トラッキング誤差が発生する。そのため本実施形態においては、外れ値除去を行うことによって、トラッキング誤差の影響を抑制する。また本実施形態においては、外れ値除去によってトラッキングを行う点が減少した場合等、所定の条件が満たされた場合に、トラッキングに用いる代表点を再抽出する処理を行う。これらの手法を用いることによって、トラッキング精度をより高くすることが可能になる。以下、本実施形態の手法について詳細に説明する。
[0017]
2.トラッキング装置
 図1は、本実施形態のトラッキング装置200の構成例を示す図である。図1に示すように、トラッキング装置200は、フレーム設定部210と、代表点抽出部221と、トラッキング部222と、外れ値除去部223と、代表点更新部224と、アノテーションデータ作成部260を含む。ただし、トラッキング装置200は図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。例えば、アノテーションデータ作成部260が省略されてもよい。
[0018]
 なお、本実施形態のトラッキング装置200は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC、FPGA等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
[0019]
 またトラッキング装置200のフレーム設定部210と、代表点抽出部221と、トラッキング部222と、外れ値除去部223と、代表点更新部224と、アノテーションデータ作成部260を含む各部は、下記のプロセッサーにより実現されてもよい。トラッキング装置200は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサーを用いることが可能である。メモリーは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリーであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターにより読み取り可能な命令を格納しており、当該命令がプロセッサーにより実行されることで、トラッキング装置200の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。さらに、フレーム設定部210、代表点抽出部221、トラッキング部222、外れ値除去部223、代表点更新部224、アノテーションデータ作成部260の全部または一部をクラウドコンピューティングで実現し、動画をネットワークを介して取得して、後述するトラッキング処理をクラウドコンピューティング上で行うこともできる。
[0020]
 フレーム設定部210は、動画を取得し、トラッキングを開始する開始フレームを設定する。ここでの動画とは、例えば、一部のフレームにタグ付けが行われた動画像であるタグ付け動画である。
[0021]
 代表点抽出部221は、開始フレームにおけるトラッキング対象の輪郭について、トラッキングを行うための代表点を抽出する。開始フレームにおけるトラッキング対象の輪郭は、開始フレームにタグ付けされた領域から求めることができる。
[0022]
 トラッキング部222は、開始フレーム以降のフレームについて、代表点抽出部221で抽出された代表点によるトラッキングを行う。なお後述するように、代表点更新部224によって代表点が更新された場合、トラッキング部222は、更新後の代表点によるトラッキングを行う。
[0023]
 外れ値除去部223は、トラッキング部222によってトラッキングされた代表点について相互に外れ値判定を行い、外れ値と判定された外れ値代表点を除く処理を行う。
[0024]
 代表点更新部224は、代表点の更新が必要か否かを判定する。代表点更新部224は、代表点の更新が必要であると判定した場合、処理対象のフレームにおける、外れ値代表点が除かれた代表点の状態に基づいて、新たに代表点を抽出する。
[0025]
 アノテーションデータ作成部260は、開始フレーム以降の各フレームについて、トラッキング結果に基づいて、アノテーションデータを作成する処理を行う。アノテーションデータとは、トラッキングされた代表点を繋げた閉曲線の内部をアノテーション領域とするデータであって、対応するフレームの画像に対して付与されるメタデータである。フレーム画像に対してアノテーションデータが付与されたデータは、例えば機械学習における教師データとして用いられる。
[0026]
 図2は、本実施形態の処理を説明するフローチャートである。この処理が開始されると、まずステップS101において、フレーム設定部210は、タグ付けされたフレームを、開始フレームとして設定する。ただしフレーム設定部210は、動画の最初のフレームを自動的にトラッキングの開始フレームとしてもよい。
[0027]
 次にステップS102において、代表点抽出部221は、開始フレームに含まれるトラッキング対象の輪郭から、トラッキングを行う点である代表点を抽出する。図3は、代表点の抽出処理を説明する図である。本実施形態におけるタグは、例えば図10、図11を用いて後述するように、医師等の作業者によって入力される情報であって、画像に対してメタデータとして付与されるアノテーションデータである。アノテーションデータは、例えばタグ領域の画素値が第1の値に設定され、タグ領域以外の画素値が第1の値と異なる第2の値に設定されたマスク画像である。
[0028]
 代表点抽出部221は、タグ領域の輪郭を抽出する。上述したようにタグ領域に関する情報がマスク画像として取得されている場合、代表点抽出部221は、例えば画素値が第1の値である画素のうち、画素値が第2の値である画素と隣接する画素を、タグ領域の輪郭として抽出する。ただし、公知のエッジ抽出フィルターを適用する等、輪郭抽出処理は種々の変形実施が可能である。
[0029]
 代表点抽出部221は、輪郭上の全ての画素をトラッキングに用いる代表点として選択してもよい。この場合にも、タグ領域の内部の画素をトラッキング対象とする必要がないため、領域が分散することを抑制でき、且つ、処理負荷の軽減が可能になる。また、代表点抽出部221は、輪郭上の画素のうち、一部の画素を代表点として抽出してもよい。例えば代表点抽出部221は、輪郭上の画素から等間隔に代表点を抽出する。例えば代表点抽出部221は、図3に示すように、隣り合う代表点の間隔が同一(略同一を含む)となるように12個の代表点を抽出する。代表点抽出部221は、抽出される代表点の数n(nは2以上の整数)をあらかじめ設定しておき、輪郭線をn分割することによって、n個の代表点を設定してもよい。或いは、隣り合う代表点の間隔があらかじめ設定されており、代表点抽出部221は、当該間隔に従って代表点を設定してもよい。この場合、輪郭線の長さに応じて、代表点の個数が変化する。
[0030]
 なお図7を用いて後述するように、本実施形態のトラッキング装置200は、トラッキング結果である代表点を繋いだ閉曲線を生成し、当該閉曲線の内部の領域をタグ領域とする。そのため、トラッキングに用いる代表点は、当該代表点を繋ぐことによって、トラッキング対象の輪郭をある程度高い精度で再現できる点でなくてはならない。輪郭が単純な形状であれば、代表点の数が少なくても輪郭に関する情報は失われにくい。一方、輪郭が複雑な形状をしている場合、多くの代表点を設定しなければ輪郭に関する情報が失われるおそれがある。
[0031]
 代表点抽出部221は、輪郭の曲率に基づいて代表点を設定してもよい。例えば代表点抽出部221は、抽出した輪郭を複数の曲線に分割し、分割された各曲線の曲率を求める。例えば曲線を円によって近似した場合の円の半径が曲率半径であり、その逆数が曲率である。なお輪郭の曲率は1画素ごとに求められてもよい。代表点抽出部221は、輪郭のうち曲率が高い部分においては、曲率が低い部分よりも多くの代表点を抽出する。このようにすれば、輪郭の形状に応じて代表点の密度を調整できるため、代表点に基づいて輪郭を適切に再現することが可能になる。即ち、トラッキング対象の領域を高い精度でトラッキングすることが可能になる。
[0032]
 開始フレームにおいて代表点が抽出されたら、ステップS103において、トラッキング部222は、抽出された代表点に対してトラッキングを行う。具体的には、第1フレームにおける所与の代表点が、次のフレームである第2フレームにおいて画像上のどの位置に存在するかを推定する。
[0033]
 図4は、トラッキングの処理を説明する図である。トラッキングは、2つのフレームにおけるフレーム画像を用いて行われる。トラッキング部222は、第1フレームにおけるフレーム画像F1のうち、所与の代表点P1の近傍の領域をテンプレート画像TIとして抽出する。テンプレート画像TIは、例えば代表点P1を中心とする所定サイズの矩形画像であるが、サイズ及び形状については種々の変形実施が可能である。トラッキング部222は、図4に示すように、第2フレームのフレーム画像F2において、テンプレート画像TIを用いたテンプレートマッチングを行う。そしてトラッキング部222は、テンプレート画像TIとの相違度が最も低い位置、又は一致度が最も高い位置を、代表点P1に対応する点として決定する。なお、テンプレートマッチングにおける探索範囲は、フレーム画像F2の全体であってもよいし、フレーム画像F2の一部であってもよい。トラッキング部222は、第1フレームにおける代表点のそれぞれについて図4に示す処理を行うことによって、代表点のトラッキングを行う。なお、トラッキングについては種々の変形実施が可能であり、代表点におけるフレーム画像の輝度、コントラストに基づくトラッキング方法、オプティカルフローによるトラッキング方法等を適用できる。
[0034]
 次にステップS104において、外れ値除去部223は、トラッキング後の点に対して外れ値除去を実施する。本実施形態における代表点は、トラッキング対象の輪郭を表す点である。1フレームの間でトラッキング対象の画像上での形状が大きく変化することは考えにくい。また撮像対象が大きく変化する場合とは、例えば図12を用いて後述するシーン変化が生じた場合等であるため、トラッキングを継続する必要性が低い。即ち、トラッキングを実行する場面において、複数の代表点の移動傾向はある程度の類似性を有すると考えられる。所与の代表点が、他の代表点に比べて明らかに異なる移動をしている場合、当該所与の代表点に関するトラッキングは誤りである蓋然性が高い。
[0035]
 外れ値除去部223は、代表点の相互の関係に基づいて、他の代表点と異なる移動をした代表点を外れ値代表点として抽出する。例えば外れ値除去部223は、所与の代表点の移動距離と、周囲の代表点の移動距離との差が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。或いは外れ値除去部223は、所与の代表点と、周囲の代表点との間の距離が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。
[0036]
 或いは外れ値除去部223は、所与の代表点について、当該代表点と、その周囲の代表点とによって形成される曲線の曲率を求め、求めた曲率が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。ここでの周囲の代表点とは、輪郭線に沿った方向において隣り合う2つの代表点、即ち両隣の代表点である。ただし、周囲の代表点として、隣接2点以外の点を追加する等の種々の変形実施が可能である。このように、代表点の逸脱具合を判定することによって、外れ値代表点を適切に除去できる。
[0037]
 図5は、外れ値除去処理を説明する図である。図5のP2に示す代表点は、隣り合う代表点P3及びP4に比べて移動距離が大きい。或いはP2~P4を通る曲線を考えた場合、当該曲線の曲率は大きい。なお、曲率の比較対象は、所与の固定値であってもよいし、第1フレームにおける曲率であってもよいし、第2フレームにおける他の代表点の曲率であってもよい。いずれであっても、P2に対応する曲率は大きいと判定される。よって外れ値除去部223は、P2に示す代表点を除去する。
[0038]
 ステップS103及びS104の処理によって、トラッキング元である第1フレームの次の第2フレームにおいて、不適切な代表点が除外された精度の高い代表点が取得される。第2フレームにおける外れ値除去後の複数の代表点の各代表点について、図4に示したトラッキング処理を行うことによって、第2フレームのさらに次のフレームである第3フレーム以降についても、トラッキングを継続することが可能である。なお、1フレーム毎に外れ値除去処理を行うだけでなく、所定の複数フレームのトラッキング毎に外れ値除去処理を行ってもよい。
[0039]
 ただし本実施形態においては、トラッキングを精度よく行うために、ステップS105において代表点更新部224は、代表点の更新が必要であるか否かを判定する。上述したように、本実施形態の手法においては、外れ値代表点と判定された代表点が除去されるため、代表点の個数が減少する場合がある。代表点の個数が過剰に少なくなった場合、残りの代表点からトラッキング対象の輪郭を再現することが困難になるため、トラッキング精度の低下につながる。よって代表点更新部224は、代表点の個数が予め決めた個数よりも少なくなった場合に、代表点の更新が必要であると判定する。
[0040]
 図6は、代表点の更新処理を説明する図である。ステップS106において、代表点更新部224は、まず外れ値除去後に残存している代表点の全点群を繋げることによって閉曲線を生成する。代表点更新部224は、例えば公知のスプライン補間を行うことによって、閉曲線を生成する。ただし、複数の点から閉曲線を生成する手法は種々知られており、本実施形態においてはそれらを広く適用可能である。
[0041]
 次にステップS108において、代表点更新部224は、生成された閉曲線から、代表点を再抽出する。なお、代表点の更新はトラッキングを精度よく継続することを目的とした処理であるため、図2のフローチャートにおいては、まずステップS107においてトラッキングを終了するか否かの判定が行われ、終了しない場合に代表点の再抽出が行われる。
[0042]
 代表点を再抽出する処理は、開始フレームにおいて輪郭から代表点を抽出する処理と同様である。即ち、代表点更新部224は、閉曲線上の画素から等間隔に代表点を抽出してもよいし、閉曲線の曲率に応じて代表点の密度を変更してもよい。この際、新たに抽出される代表点は、元の代表点と一致する必要はない。例えば図6に示すように、11個の代表点から閉曲線を生成し、12個の代表点を抽出し直す場合、元の11個の代表点を維持しつつ1つの代表点を追加する必要はなく、12個全ての代表点を新たに選択することが可能である。本実施形態の手法はトラッキング対象の輪郭をトラッキングするものであって、輪郭上における代表点の位置は問わないためである。
[0043]
 また代表点更新部224は、トラッキング結果の信頼性が所定値より低下した場合に、代表点の更新が必要であると判定してもよい。トラッキング結果の信頼性とは、例えばテンプレートマッチングにおける相違度の最小値、或いは一致度の最大値である。相違度は例えばSSD(Sum of Squared Difference)、SAD(Sum of Absolute Difference)であり、最小値が所定閾値以上である場合に信頼性が低いと判定される。一致度は例えばNCC(Normalized Cross Correlation)であり、最大値が所定閾値以下である場合に信頼性が低いと判定される。代表点を更新することによって、テンプレートマッチングにおけるテンプレート画像を変更できる。そのため、代表点の更新によってトラッキング精度の向上を図ることが可能になる。
[0044]
 またトラッキング精度が低下した場合に代表点をリフレッシュするという観点から考えれば、代表点更新部224は、トラッキングを所定フレーム数だけ実行した場合、即ち一定時間が経過した場合に、代表点の更新が必要であると判定してもよい。トラッキングを複数のフレームに渡って継続した場合、トラッキング誤差が蓄積される。一定時間が経過したか否かを判定条件とすることによって、トラッキング精度が低下したおそれがある場合に、代表点を更新することが可能になる。
[0045]
 代表点の更新が必要でない場合(ステップS105でNo)、又は代表点の更新後(ステップS108の処理後)、ステップS103に戻り処理が継続される。トラッキング部222は、最新フレームにおける代表点に基づいて、1フレーム分のトラッキングを行う。これ以降の処理は同様であり、外れ値除去処理、及び必要に応じて代表点の更新処理が行われ、その結果に基づいて次フレームへのトラッキングが行われる。
[0046]
 トラッキングを終了すると判定された場合(ステップS107でYes)、ステップS109において、トラッキング装置200はタグ領域を生成する処理を行う。図7は、タグ領域の生成処理を説明する図である。具体的には、各フレームにおいて代表点を繋いだ閉曲線が生成され、当該閉曲線の内部をタグ領域とする処理が行われる。閉曲線の生成処理についてはステップS106と同様である。各フレームにおける代表点とは、外れ値代表点を除去する処理後の代表点である。また代表点を更新する処理が行われたフレームについては、ステップS106における処理結果である閉曲線を流用してもよい。
[0047]
 なお、本実施形態におけるタグ領域とは、画像に対して付与されるメタデータ(アノテーションデータ)であってもよい。この場合、図7に示す処理は、アノテーションデータ作成部260によって実行される。アノテーションデータ作成部260が作成するアノテーションデータとは、例えばタグ領域を特定するためのマスク画像である。
[0048]
 以上のように、本実施形態のトラッキング装置200は、フレーム設定部210と、代表点抽出部221と、トラッキング部222と、外れ値除去部223と、代表点更新部224を含む。フレーム設定部210は、複数のフレームを含む動画について、トラッキング対象のトラッキングを開始する開始フレームを設定する。代表点抽出部221は、開始フレームにおけるトラッキング対象の輪郭について、複数の代表点を抽出する。トラッキング部222は、開始フレーム以降のフレームについて、抽出された複数の代表点のトラッキングを行う。外れ値除去部223は、トラッキング部222によってトラッキングされた複数の代表点について、複数の代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された代表点である外れ値代表点を除く処理を行う。代表点更新部224は、開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、外れ値代表点を除く処理後の複数の代表点に基づいて、新たな代表点を抽出することによって代表点を更新する。
[0049]
 本実施形態の手法によれば、輪郭について代表点を抽出し、当該代表点を用いてトラッキングを行う。輪郭をトラッキングすることによって、画素のばらつき発生を抑制できるため、領域ベースのトラッキングを適切に実行できる。また領域内部の画素をトラッキングする必要がなくなるため、処理の高速化が可能である。その際、外れ値判定を行うことによって、トラッキング結果から不適切な代表点を除外できるため、精度の向上が可能である。代表点はいずれも輪郭上に設定されるため、代表点相互の関係を用いることによって、外れ値代表点の検出を適切に実行できる。また、代表点の更新も行われるため、外れ値代表点が除外される場合等であっても、トラッキングを精度よく実行することが可能である。具体的には、代表点を更新することによって、代表点からトラッキング対象の輪郭を特定する処理を、高い精度で実行することが可能になる。
[0050]
 また代表点抽出部221は、開始フレームにタグ付けされた領域であるタグ領域をトラッキング対象としてもよい。代表点抽出部221は、タグ領域の輪郭について、複数の代表点を抽出する。このようにすれば、タグ領域を対象としたトラッキングを適切に行うことが可能になる。タグが付される領域は、図8(A)~図8(C)を用いて後述するように、画像上に明確に位置形状が撮像されない被写体であってもよい。これらの被写体に対するタグ付けは熟練者でなければ容易でないところ、トラッキングによってタグ付けの効率化が可能になる。
[0051]
 また代表点抽出部221は、トラッキング対象の輪郭上において、隣り合う代表点が所与の間隔となるように複数の代表点を抽出してもよい。このようにすれば、代表点を効率的に設定することが可能になる。
[0052]
 また代表点抽出部221は、トラッキング対象の輪郭上のうち、輪郭の曲率が高い部分における代表点の密度が、輪郭の曲率の低い部分における代表点の密度に比べて高くなるように、複数の代表点を抽出してもよい。ここでの密度とは、単位輪郭長当たりに設定される代表点の個数を表す。このようにすれば、輪郭形状を考慮した代表点の設定が可能になる。そのため、代表点に基づいてトラッキング対象の輪郭を適切に再現することが可能になる。
[0053]
 また外れ値除去部223は、複数の代表点のうちの第1代表点について、当該第1代表点と輪郭に沿った方向において隣り合う1又は複数の代表点に基づいて、第1代表点の逸脱度合いを判定することによって、第1代表点が外れ値代表点であるか否かを判定してもよい。具体的には、外れ値除去部223は、第1代表点と、上記隣り合う1又は複数の代表点との相対的な距離情報に基づいて第1代表点の逸脱度合いを判定する。相対的な距離情報とは、第1代表点と隣り合う代表点との間の距離に関する情報であってもよい。或いは相対的な距離情報とは、第1代表点のフレーム間での移動距離と、隣り合う代表点のフレーム間での移動距離の関係を表す情報であってもよい。また、外れ値除去部223は、第1代表点と、隣り合う複数の代表点によって形成される曲線の曲率に基づいて第1代表点の逸脱度合いを判定する。このようにすれば、所与の代表点と、その周辺の代表点との相対的な関係に基づいて、トラッキングに誤りが生じている蓋然性の高い代表点を、外れ値代表点として除外することが可能になる。
[0054]
 また代表点更新部224は、外れ値代表点を除く処理によって代表点の個数が所与の個数閾値以下になった場合に、外れ値代表点を除く処理後の複数の代表点に基づいて、新たな代表点を抽出する。外れ値代表点を除去する場合、不適切な代表点を処理から除外するという点で精度向上が可能になるものの、代表点の個数が減少してしまう。代表点の個数が過剰に減少した場合、代表点に基づく輪郭再現が困難になるため、結果的にトラッキング対象のトラッキング精度が低下する。本実施形態の手法によれば、十分な精度で輪郭が再現可能な個数の代表点が残存しているうちに代表点の更新が可能であるため、外れ値除去に起因する精度低下を抑制することが可能になる。換言すれば、代表点の更新処理と組み合わせることによって、外れ値除去処理を適切に精度向上に寄与させることが可能になる。
[0055]
 また代表点更新部224は、トラッキング結果の信頼度が所与の信頼度閾値以下になった場合に、外れ値代表点を除く処理後の複数の代表点に基づいて、新たな代表点を抽出してもよい。或いは代表点更新部224は、所与の時間間隔において、外れ値代表点を除く処理後の複数の代表点に基づいて、新たな代表点を抽出してもよい。このようにすれば、トラッキング精度の低下が疑われる場合に、代表点がリフレッシュされるため、トラッキング精度を向上させることが可能になる。
[0056]
 また代表点更新部224は、外れ値代表点を除く処理後の複数の代表点に基づいて閉曲線を生成し、生成した閉曲線上において、新たな代表点を抽出してもよい。このように閉曲線を用いることによって、新たな代表点も、トラッキング対象の輪郭に対応する点となる。そのため、代表点が更新された場合であっても、トラッキング対象の領域を適切にトラッキングすることが可能になる。
[0057]
 またトラッキング装置200は、アノテーションデータ作成部260を含んでもよい。アノテーションデータ作成部260は、開始フレーム以降の各フレームについて、トラッキングされた複数の代表点に基づいて生成された閉曲線の内部をアノテーション領域とするアノテーションデータを作成する。より具体的には、アノテーションデータ作成部260は、外れ値代表点を除く処理後の複数の代表点に基づいて生成された閉曲線の内部をアノテーション領域とする。このようにすれば、動画の各フレームについて、トラッキング対象の領域を特定可能なメタデータを付与することが可能になる。アノテーションデータは、例えば後述するように機械学習の教師データとして利用される。
[0058]
 また、本実施形態のトラッキング装置200が行う処理は、トラッキング方法として実現されてもよい。トラッキング方法は、複数のフレームを含む動画を取得し、トラッキング対象のトラッキングを開始する開始フレームを設定する工程と、開始フレームにおけるトラッキング対象の輪郭について、複数の代表点を抽出する工程と、開始フレーム以降のフレームについて、抽出された複数の代表点のトラッキングを行う工程と、トラッキングされた複数の代表点について、複数の代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された代表点である外れ値代表点を除く工程と、開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、外れ値代表点を除く処理後の複数の代表点に基づいて、新たな代表点を抽出することによって代表点を更新する工程と、を含む方法である。
[0059]
3.内視鏡システム、学習装置、学習済モデル
 上述したトラッキング装置200の出力は、機械学習に利用されてもよい。例えば、内視鏡下の外科手術において、画像に明確な位置形状が表示されない対象物を作業者が識別しにくい場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。このとき、熟練してない医師が、不明瞭なランドマークを見分けにくい場合がある。なお、位置形状は位置及び形状のことである。
[0060]
 図8(A)~図8(C)に、画像中に明確な位置形状が表示されない対象物の一例を示す。図8(A)においては総胆管が、また、図8(B)においては胆のう管が、図8(C)においてはルビエレ溝が対象物となる。なお図8(A)~図8(C)は模式図であり、実際の臓器又は組織の正確な形状を示すものではない。図10以降についても同様である。
[0061]
 図8(A)、図8(B)は、対象物が臓器又は組織に覆われている状態の例である。この場合、対象物がカメラの画角内に入っていたとしても、対象物そのものは画像上では見えない、または、位置形状が明確でない。図8(C)は、画像中に対象物が露出して視認できるが、対象物の境界が曖昧な状態の例である。図8(C)に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。
[0062]
 総胆管及び胆のう管、ルビエレ溝、及び後述するS4下縁は、腹腔鏡下胆のう摘出術におけるランドマークである。ランドマークとは、手術の手順を進める際に用いられる目印である。本実施形態では、これらのランドマークが対象物としてアノテーションされることで教師データが作成され、その教師データにより機械学習が行われる。
[0063]
 図9は、本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャートである。
[0064]
 ステップS1、S2は、教師データを作成するステップである。ステップS1において、作業者が手術動画の所定フレーム画像にタグ付けを行う。作業者は、例えば対象手術に習熟した医師等である。後述するように、所定フレーム画像は、動画においてシーン変化した後の最初のフレーム画像である。次に、ステップS2において、トラッキング装置200が、タグ付けされた領域をトラッキングすることで、教師データを作成する。具体的なトラッキング手法については上述したとおりである。ステップS1、S2においてタグ付けされた手術動画の各フレーム画像が学習用画像となる。なお、画像にタグ付けすることをアノテーションと呼ぶ。
[0065]
 ステップS4は、学習ステップである。即ち、学習装置が、ステップS1、S2で作成された教師データを用いて機械学習を行う。この機械学習により得られた学習済みモデルは、後述する情報処理システム10の記憶部7に記憶される。
[0066]
 ステップS5は、学習したAIにより推論を行うステップである。即ち、情報処理システム10の処理部4が、記憶部7に記憶された学習済みモデルに基づいて検出用画像から対象物を検出する。処理部4は、検出された対象物を示す情報を検出用画像に表示させる。
[0067]
 次に教師データを作成する手法を説明する。教師データの作成は、画像中に明確な位置形状が表示されない対象物を画角内に撮像した学習用画像について、対象物の位置形状を示すアノテーションを付すことによって行われる。「画像中に明確な位置形状が表示されない」とは、輝度又はコントラストに基づき境界を検出する手法によって、対象物の位置形状を特定できない状態を意味する。
[0068]
 画像中に明確な位置形状が表示されない上記ランドマークについて、作業者の暗黙知に基づいて、画像内の位置形状を特定し、アノテーションデータとして与える。アノテーションを行う作業者は、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等である。
[0069]
 図10に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓KZと、胆のうTNNと、処置具TL1、TL2とが撮像されている。この学習用画像の画角内には、総胆管及び胆のう管、ルビエレ溝、S4下縁が含まれている。図10において、肝臓右葉の実線部分は、ルビエレ溝の開始部分(比較的明瞭な部分)を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるS4下縁の領域を示す。
[0070]
 アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、S4下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグTGAと、胆のう管を示すタグTGBと、ルビエレ溝を示すタグTGCと、S4下縁を示すタグTGDが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業差によって指定された学習用画像上の領域にタグを付す。
[0071]
 図11に、アノテーションにより生成された教師データの例を示す。図11に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、以下ではフラグデータ(アノテーションデータ)と呼ぶ。フラグデータは、タグTGA~TGDの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された4層のフラグデータと、で構成されている。
[0072]
 図12は、トラッキングによる自動タグ付けを説明する図である。図12には、内視鏡スコープ2で撮像された動画のフレーム画像を示す。これらの各フレーム画像が学習用画像となる。この動画のうち、所定のフレーム画像F1、Fx+1が選択される。xは1以上の整数である。作業者が所定のフレーム画像F1、Fx+1を選択してもよいし、学習装置が画像処理によるシーン検出等によって所定のフレーム画像F1、Fx+1を選択してもよい。作業者は、選択された所定のフレーム画像F1、Fx+1に対してタグ付けを行う。
[0073]
 所定のフレーム画像F1、Fx+1は、例えば手術手順が切り替わるときのフレーム画像、又は動画の明暗が変化したときのフレーム画像、フレーム間のブレが大きく変化するときのフレーム画像、撮像する対象物が切り替わるときのフレーム画像等である。
[0074]
 タグ付けが行われた所定のフレーム画像以降のフレーム画像は、トラッキングによってタグ付けされる。フレーム画像F1に対して作業者がタグTGE1を付したとする。フレーム画像FxとFx+1の間でシーン変化があったとすると、フレーム画像F2~Fxがトラッキングによるタグ付け対象となる。例えば、フレーム画像F1とフレーム画像F2の間において、タグTGE1のトラッキングを行うことによって、F2のタグTGE2が取得される。具体的には上述したとおり、代表点の抽出、代表点のトラッキング、外れ値除去、閉曲線生成、タグ領域生成の各処理に基づいて、タグTGE2が取得される。同様にして、F3~Fxに対してタグTGE3~TGExが生成される。
[0075]
 同様に、シーン変化後のフレーム画像Fx+1に対して作業者がタグTGF1を付したとする。上記と同様にして、トラッキングにより、フレーム画像Fx+2~Fx+yに対してタグTGF2~TGFyが付される。yは1以上の整数である。
[0076]
 図13は、学習装置50の構成例である。学習装置50は、トラッキング装置200と、処理部51と記憶部52と操作部53と表示部54とを含む。例えば、学習装置50はPC等の情報処理装置である。処理部51はCPU等のプロセッサである。処理部51は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部52は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部53はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部54は液晶ディスプレイ等の表示装置である。なお図13においては学習装置50がトラッキング装置200を含む例を説明したが、学習装置50とトラッキング装置200はそれぞれ異なる機器であってもよい。
[0077]
 図14は、学習の手順を示すフローチャートである。なお、トラッキング装置200によって生成されたアノテーションデータは、学習用画像と対応付けられた上で、教師データとして記憶部52に記憶されている。
[0078]
 本実施形態の機械学習おいては、ニューラルネットワークが用いられてもよい。図15は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図15においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は図15の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習(ディープラーニング)を用いることが望ましい。ここでの多層とは、狭義には4層以上である。
[0079]
 図15に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み(バイアスを含む)を決定する処理である。学習には誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。
[0080]
 より具体的には、本実施形態にかかるニューラルネットワークは、画像認識処理に好適な畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。またCNNの出力層は、例えば広く知られたソフトマックス層が用いられる。なお、畳み込み層の数、プーリング層の数、出力層の態様等、CNNの具体的な構成は種々の変形実施が可能である。CNNの畳み込み層における重みは、フィルタのパラメータである。即ち、CNNにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。CNNを含むニューラルネットワークについては広く知られた手法であるため、これ以上の詳細な説明は省略する。また本実施形態における機械学習はニューラルネットワークを用いる手法に限定されない。例えば本実施形態の手法には、SVM(support vector machine)等、広く知られた種々の方式の機械学習、或いはそれらの方式を発展させた方式の機械学習を適用することが可能である。
[0081]
 ステップS11において、処理部51は記憶部52から教師データを読み出す。例えば1回の推論に対して1つの学習用画像と、それに対応したフラグデータとが読み出される。なお、1回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。
[0082]
 ステップS12において、処理部51は対象物の位置形状を推定し、その結果を出力する。即ち、処理部51は、ニューラルネットワークに学習用画像を入力する。処理部51は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すフラグデータを出力する。
[0083]
 ステップS13において、処理部51は、推定した位置形状と、アノテーションが示す位置形状を比較し、その結果に基づいて誤差を計算する。即ち、処理部51は、ニューラルネットワークから出力されたフラグデータと、教師データのフラグデータとの誤差を計算する。
[0084]
 ステップS14において、処理部51は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部51は、ステップS13で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。
[0085]
 ステップS15において、処理部51は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部51はステップS11~S15を再び実行する。パラメータ調整が規定回数終了した場合、ステップS16に示すように処理部51は学習処理を終了する。又は、処理部51は、ステップS13で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部51はステップS11~S15を再び実行する。誤差が規定値以下になった場合、ステップS16に示すように処理部51は学習処理を終了する。以上の処理を行うことによって、学習結果として学習済モデルが出力される。
[0086]
 図16は、情報処理システム10、及び情報処理システム10を含む内視鏡システム100の構成例である。情報処理システム10は、学習済モデルを用いた推論処理を行う推論装置である。内視鏡システム100は、プロセッサユニット1と、内視鏡スコープ2と、表示部3と、を含む。また内視鏡システム100は操作部9を更に含んでもよい。
[0087]
 内視鏡スコープ2の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ2からプロセッサユニット1へ送信される。
[0088]
 プロセッサユニット1は、内視鏡システム100における種々の処理を行う装置である。例えばプロセッサユニット1は、内視鏡システム100の制御、及び画像処理等を行う。プロセッサユニット1は、内視鏡スコープ2からの撮像データを受信する撮像データ受信部8と、学習済みモデルにより撮像データから対象物を検出する情報処理システム10と、を含む。
[0089]
 撮像データ受信部8は、例えば内視鏡スコープ2のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。
[0090]
 情報処理システム10は、学習済みモデルを記憶する記憶部7と、記憶部7に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部4と、を含む。
[0091]
 記憶部7は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部7には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム10に入力され、その学習済みモデルを記憶部7が記憶してもよい。
[0092]
 処理部4は、学習済みモデルによる推論によって画像から対象物を検出する検出部5と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部3に表示させる出力部6と、を含む。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部5はCPU等の汎用プロセッサである。この場合、記憶部7は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部5は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。この場合、記憶部7は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。
[0093]
 検出部5は、内視鏡スコープ2で撮像された検出用画像を学習済みモデルに入力する。検出部5は、学習済みモデルによる検出処理を行うことで、検出用画像における対象物の位置形状を検出する。即ち、検出結果は検出フラグデータとして出力される。検出フラグデータは、検出された対象物の位置形状に対応した画素にフラグが付されたフラグマップである。例えば、図11で説明した教師データと同様に、各対象物に対応した4層の検出フラグデータが出力される。
[0094]
 表示部3は、出力部6から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置である。
[0095]
 操作部9は、作業者が内視鏡システム100を操作するための装置である。例えば、操作部9は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部6は、操作部9からの入力情報に基づいて、対象物の表示態様を変更してもよい。
[0096]
 なお、上記では情報処理システム10がプロセッサユニット1に含まれるが、情報処理システム10の一部又は全部がプロセッサユニット1の外部に設けられてもよい。例えば、記憶部7と検出部5がPC又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部8は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部6に送信する。出力部6は、受信した情報を画像に重畳して表示部3に表示させる。
[0097]
 本実施形態の手法は、検出用画像を入力として受け付け、検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルに適用できる。学習済モデルは、上記トラッキング方法によって生成されたアノテーションデータが、動画に含まれるフレームの画像に対応付けられた訓練データに基づいて、機械学習されている。なお、アノテーションデータが対応付けられるフレーム画像とは、動画に含まれる全フレームであってもよい。ただし本実施形態の手法はこれに限定されず、動画の一部のフレーム画像に対してアノテーションデータが対応付けられてもよい。この場合、アノテーションデータが対応付けられたフレーム画像を用いて機械学習が行われる。
[0098]
 本実施形態のトラッキング方法によれば、動画中の対象物に付されたタグ付け領域から精度よくトラッキングを行うことによって、精度の高いアノテーションデータを作成することが可能である。そのため、当該アノテーションデータを教師データとする機械学習を行うことによって、精度の高い検出処理を実行可能な学習済モデルを生成することが可能である。
[0099]
 また本実施形態の手法は、上記の学習済モデルを記憶する記憶部7と、検出用画像を撮像する内視鏡スコープ2と、学習済モデルに基づいて、検出用画像から所与の被写体の位置を検出する処理を行う処理部4と、を含む内視鏡システム100に適用できる。
[0100]
 このようにすれば、検出用画像から所望の被写体を精度よく検出することが可能になる。特に、画像に明確な位置形状が表示されない対象物についてアノテーションが付された教師データを用いて機械学習することで、熟練医師等の暗黙知に基づく対象物の検出を実現することも可能である。その際、トラッキングを用いて教師データを生成できるため、アノテーションにおける医師等の負担軽減が可能である。
[0101]
 以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。

符号の説明

[0102]
1…プロセッサユニット、2…内視鏡スコープ、3…表示部、4…処理部、5…検出部、6…出力部、7…記憶部、8…撮像データ受信部、9…操作部、10…情報処理システム、50…学習装置、51…処理部、52…記憶部、53…操作部、54…表示部、100…内視鏡システム、200…トラッキング装置、210…フレーム設定部、221…代表点抽出部、222…トラッキング部、223…外れ値除去部、224…代表点更新部、260…アノテーションデータ作成部、KZ…肝臓、TGA-TGD,TGE1-TGEx,TGF1-TGFy…タグ、TI…テンプレート画像、TL1,TL2…処置具、

請求の範囲

[請求項1]
 複数のフレームを含む動画について、トラッキング対象のトラッキングを開始する開始フレームを設定するフレーム設定部と、
 前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する代表点抽出部と、
 前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行うトラッキング部と、
 前記トラッキング部によってトラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く処理を行う外れ値除去部と、
 前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する代表点更新部と、
 を含むことを特徴とするトラッキング装置。
[請求項2]
 請求項1において、
 前記代表点抽出部は、
 前記開始フレームにタグ付けされたタグ領域を前記トラッキング対象として、前記タグ領域の輪郭について、複数の前記代表点を抽出することを特徴とするトラッキング装置。
[請求項3]
 請求項1又は2において、
 前記代表点抽出部は、
 前記トラッキング対象の輪郭上において、隣り合う前記代表点が所与の間隔となるように複数の前記代表点を抽出することを特徴とするトラッキング装置。
[請求項4]
 請求項1又は2において、
 前記代表点抽出部は、
 前記トラッキング対象の前記輪郭上のうち、前記輪郭の曲率が高い部分における前記代表点の密度が、前記輪郭の前記曲率の低い部分における前記代表点の密度に比べて高くなるように、複数の前記代表点を抽出することを特徴とするトラッキング装置。
[請求項5]
 請求項1乃至4のいずれか一項において、
 前記外れ値除去部は、
 複数の前記代表点のうちの第1代表点について、前記第1代表点と前記輪郭に沿った方向において隣り合う1又は複数の前記代表点との相対的な距離情報、又は、前記第1代表点と前記輪郭に沿った方向において隣り合う複数の前記代表点によって形成される曲線の曲率に基づいて、前記第1代表点の逸脱度合いを判定することによって、前記第1代表点が前記外れ値代表点であるか否かを判定することを特徴とするトラッキング装置。
[請求項6]
 請求項1乃至5のいずれか一項において、
 前記代表点更新部は、
 前記外れ値代表点を除く処理によって前記代表点の個数が所与の個数閾値以下になった場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、前記新たな代表点を抽出することを特徴とするトラッキング装置。
[請求項7]
 請求項1乃至5のいずれか一項において、
 前記代表点更新部は、
 トラッキング結果の信頼度が所与の信頼度閾値以下になった場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、前記新たな代表点を抽出することを特徴とするトラッキング装置。
[請求項8]
 請求項1乃至5のいずれか一項において、
 前記代表点更新部は、
 所与の時間間隔において、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、前記新たな代表点を抽出することを特徴とするトラッキング装置。
[請求項9]
 請求項6乃至8のいずれか一項において、
 前記代表点更新部は、
 前記外れ値代表点を除く処理後の複数の前記代表点に基づいて閉曲線を生成し、生成した前記閉曲線上において、前記新たな代表点を抽出することを特徴とするトラッキング装置。
[請求項10]
 請求項1乃至9のいずれか一項において、
 前記開始フレーム以降の各フレームについて、トラッキングされた複数の前記代表点に基づいて生成された閉曲線の内部をアノテーション領域とするアノテーションデータを作成するアノテーションデータ作成部をさらに含むことを特徴とするトラッキング装置。
[請求項11]
 検出用画像を入力として受け付け、前記検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、
 複数のフレームを含む動画を取得し、トラッキング対象のトラッキングを開始する開始フレームを設定する工程と、
 前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する工程と、
 前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行う工程と、
 トラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く工程と、
 前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する工程と、
 前記開始フレーム以降の各フレームについて、トラッキングされた複数の前記代表点に基づいて生成された閉曲線の内部をアノテーション領域とするアノテーションデータを作成する工程と、
 によって生成された前記アノテーションデータが、前記動画に含まれる前記フレームの画像に対応付けられた訓練データに基づいて、機械学習されていることを特徴とする学習済モデル。
[請求項12]
 請求項11に記載の学習済モデルを記憶する記憶部と、
 前記検出用画像を撮像する内視鏡スコープと、
 前記学習済モデルに基づいて、前記検出用画像から前記所与の被写体の位置を検出する処理を行う処理部と、
 を含むことを特徴とする内視鏡システム。
[請求項13]
 複数のフレームを含む動画を取得し、トラッキング対象のトラッキングを開始する開始フレームを設定する工程と、
 前記開始フレームにおける前記トラッキング対象の輪郭について、複数の代表点を抽出する工程と、
 前記開始フレーム以降のフレームについて、抽出された複数の前記代表点のトラッキングを行う工程と、
 トラッキングされた複数の前記代表点について、複数の前記代表点の相互の関係に基づいて外れ値判定を行い、外れ値と判定された前記代表点である外れ値代表点を除く工程と、
 前記開始フレーム以降のフレームにおいて所与の条件が満たされた場合に、前記外れ値代表点を除く処理後の複数の前記代表点に基づいて、新たな代表点を抽出することによって前記代表点を更新する工程と、
 を含むことを特徴とするトラッキング方法。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]

[ 図 17]