Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020137092 - REGION IDENTIFICATION DEVICE, METHOD, AND PROGRAM

Document

明 細 書

発明の名称 領域特定装置、方法およびプログラム

技術分野

0001  

背景技術

0002   0003   0004  

先行技術文献

特許文献

0005  

非特許文献

0006  

発明の概要

発明が解決しようとする課題

0007   0008  

課題を解決するための手段

0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019  

発明の効果

0020  

図面の簡単な説明

0021  

発明を実施するための形態

0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062  

符号の説明

0063  

請求の範囲

1   2   3   4   5   6   7   8   9   10  

図面

1   2   3   4   5   6   7   8   9  

明 細 書

発明の名称 : 領域特定装置、方法およびプログラム

技術分野

[0001]

 本開示は、画像に含まれる物体の領域を特定する領域特定装置、方法およびプログラムに関する。

背景技術

[0002]

 近年、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の医療機器の進歩により、より質の高い高解像度の3次元画像を用いての画像診断が可能となってきている。このような3次元画像に含まれる臓器および病変等の領域を自動で抽出することも行われている。このように画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた判別器を用いる手法が提案されている。とくに、ディープラーニングで用いられる畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))としてFaster-RCNN(Regions with CNN features)が知られている(非特許文献1および特許文献1参照)。
[0003]

 Faster-RCNNは、入力画像から特徴量を抽出して特徴マップを生成する畳み込み層と、物体の候補領域を特定するRPN(Region Proposal Networks)と、特徴マップおよび物体候補領域を入力として、物体のカテゴリの分類および回帰の結果を出力する分類ネットワークから構成される。Faster-RCNNのRPNにおいては、複数種類のアスペクト比およびサイズを有するアンカーと呼ばれる矩形領域が予め定義される。RPNにおいては、複数種類のアンカーを入力画像から生成された特徴マップの各画素位置に適用し、入力画像に含まれる物体候補との重なり率が最も大きいアンカーが選択される。そして、RPNにおいては、選択されたアンカーを用いて、物体候補を囲む矩形(正解ボックス)と一致するようにアンカーを回帰させる(すなわち変形および移動させる)処理を、特徴マップの全画素において行い、正解ボックスと一致するように回帰されたアンカーの位置およびサイズが、入力画像における物体候補領域としてRPNから出力される。そして、分類ネットワークにおいて、物体候補領域および特徴マップに基づいて、入力画像における物体候補領域の分類が行われる。
[0004]

 また、CNNを用いて画像から人物を効率よく特定するために、複数種類のアンカーから人物が立っている状態のアスペクト比に近い縦長の1:2のアスペクト比を有するアンカーを用いる手法が提案されている(特許文献2参照)。

先行技術文献

特許文献

[0005]

特許文献1 : 米国特許第9858496号明細書
特許文献2 : 特開2017-191501号公報

非特許文献

[0006]

非特許文献1 : Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

発明の概要

発明が解決しようとする課題

[0007]

 特許文献1および非特許文献1に記載された手法では、RPNにおいて、複数種類のアンカーから、正解ボックスとの重なり率が最も大きいアンカーを選択している。このため、特許文献1および非特許文献1に記載された手法では、正解ボックスを囲むようにアンカーを変形および移動させる処理を行う際に、物体候補の形状およびサイズによっては、処理の演算量が大きくなってしまう。また、特許文献2に記載された手法は、人物を特定するために縦長の1:2のアスペクト比を有するアンカーを使用する。このため、特許文献2に記載された手法は、画像から人物を効率よく特定できるかもしれないが、人物以外の物体については、必ずしも効率よく特定できない可能性がある。
[0008]

 本発明は上記事情に鑑みなされ、入力画像に含まれる任意の物体を効率よく特定することを目的とする。

課題を解決するための手段

[0009]

 本開示による領域特定装置は、入力画像に含まれる物体の領域を特定する領域特定装置であって、

 入力画像に含まれる物体候補を特定する第1の識別器を備え、

 第1の識別器は、各種形状および各種大きさを有する複数のアンカーから、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する。
[0010]

 なお、本開示による領域特定装置においては、選択したアンカーを表示部に表示する表示制御部をさらに備えてもよい。
[0011]

 また、本開示による領域特定装置においては、表示制御部は、物体候補領域が特定された入力画像を表示部に表示してもよい。
[0012]

 また、本開示による領域特定装置においては、入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、

 第1の識別器は、畳み込み特徴マップに基づいて物体候補領域を特定してもよい。
[0013]

 また、本開示による領域特定装置においては、物体候補領域に含まれる物体候補のカテゴリを特定する第2の識別器をさらに備えてもよい。
[0014]

 また、本開示による領域特定装置においては、畳み込み特徴マップおよび物体候補領域に基づいて、物体候補のカテゴリを特定する第2の識別器をさらに備えてもよい。
[0015]

 また、本開示による領域特定装置においては、第2の識別器は、物体候補領域を修正してもよい。
[0016]

 また、本開示による領域特定装置においては、第2の識別器は、物体候補領域内における物体候補の輪郭を識別してもよい。
[0017]

 本開示による領域特定方法は、入力画像に含まれる物体の領域を特定する領域特定方法であって、

 各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、入力画像に含まれる物体候補を特定する。
[0018]

 なお、本開示による領域特定方法をコンピュータに実行させるためのプログラムとして提供してもよい。
[0019]

 本開示による他の領域特定装置は、入力画像に含まれる物体の領域を特定する処理をコンピュータに実行させるための命令を記憶するメモリと、

 記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、

 各種形状および各種大きさを有する複数のアンカーから、入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器として機能して、入力画像に含まれる物体候補を特定する処理を実行する。

発明の効果

[0020]

 本開示によれば、物体領域候補を特定するためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。また、人物以外の物体についても効率よく特定することができる。

図面の簡単な説明

[0021]

[図1] 本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図
[図2] 本開示の実施形態による領域特定装置の概略構成を示す図
[図3] 物体特定部の構成を示す概略ブロック図
[図4] RPNの構成を示す図
[図5] アンカーの選択を説明するための図
[図6] アンカーの選択を説明するための図
[図7] アンカーの選択を説明するための図
[図8] 結果画面を示す図
[図9] 本実施形態において行われる処理を示すフローチャート

発明を実施するための形態

[0022]

 以下、図面を参照して本開示の実施形態について説明する。図1は、本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図1に示すように、診断支援システムでは、本実施形態による領域特定装置1、3次元画像撮影装置2、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
[0023]

 3次元画像撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT装置、MRI装置、およびPET(Positron Emission Tomography)装置等である。3次元画像撮影装置2により生成された3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、3次元画像撮影装置2は例えばCT装置であり、被検体の診断対象となる部位を含むCT画像を3次元画像として生成する。なお、3次元画像は複数の断層画像からなる。
[0024]

 画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には3次元画像撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。
[0025]

 領域特定装置1は、1台のコンピュータに、本実施形態の領域特定プログラムをインストールした装置である。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。領域特定プログラムは、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。
[0026]

 図2は、コンピュータに領域特定プログラムをインストールして実行することにより実現される領域特定装置の概略構成を示す図である。図2に示すように、領域特定装置1は、標準的なワークステーションの構成として、CPU(Central Processing Unit)11、メモリ12およびストレージ13を備えている。また、領域特定装置1には、液晶ディスプレイ等の表示部14、並びにキーボードおよびマウス等の入力部15が接続されている。
[0027]

 ストレージ13はハードディスクドライブ等からなり、ネットワーク4を経由して画像保管サーバ3から取得した入力画像および処理に必要な情報を含む各種情報が記憶されている。
[0028]

 また、メモリ12には、領域特定プログラムが記憶されている。メモリ12は、一時的な記録媒体である揮発性メモリでもよいし、非一時的な記録媒体である不揮発性メモリでもよい。メモリ12が揮発性メモリの場合は、領域特定プログラムがCPU11により他の場所から読み出され、メモリ12へ一時的に記憶され実行される。また、領域特定プログラムは、図示しない外部記録媒体に記録されて配布され、その記録媒体からCPU11によりインストールされてもよい。または、領域特定プログラムは、ネットワークに接続されたサーバ等に、外部からアクセス可能な状態で記憶され、要求に応じてCPU11によりメモリ12やストレージ13にダウンロードされ、インストールおよび実行されてもよい。領域特定プログラムは、CPU11に実行させる処理として、物体領域を特定する対象となる入力画像S0を取得する画像取得処理、入力画像S0に含まれる物体を特定する物体特定処理、および後述するアンカーおよび物体候補領域が特定された入力画像S0を表示する表示制御処理を規定する。なお、入力画像は3次元の画像であってもよく、2次元の画像であってもよい。本実施形態においては、説明のために例えばCT装置により取得された3次元画像の1つの断層面を表す断層画像が入力画像として用いられるとするが、これに限定されない。
[0029]

 そして、CPU11がプログラムに従いこれらの処理を実行することにより、コンピュータは、画像取得部21、物体特定部22および表示制御部23として機能する。
[0030]

 画像取得部21は、入力画像S0を画像保管サーバ3から取得するインターフェース等からなる。なお、入力画像S0が既にストレージ13に記憶されている場合には、画像取得部21は、ストレージ13から入力画像S0を取得するようにしてもよい。
[0031]

 物体特定部22は、入力画像S0に含まれる物体を特定する。このために、物体特定部22はFaster-RCNNからなる。図3は物体特定部22の構成を示す概略ブロック図である。図3に示すように、物体特定部22、すなわちFaster-RCNNは、入力画像S0から畳み込み特徴マップM0を生成する畳み込みニューラルネットワーク30、畳み込み特徴マップM0に含まれる物体候補領域P0を特定する第1の識別器40、および物体候補領域P0に基づいて物体候補領域に含まれる物体候補のカテゴリを特定する第2の識別器50を有する。なお、畳み込みニューラルネットワーク30が本開示の畳み込み部に対応する。
[0032]

 畳み込みニューラルネットワーク30は、畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)および逆畳み込み層(Deconvolutional Layer)等の複数の層を有する。畳み込みニューラルネットワーク30は、入力画像S0が入力されると、入力画像S0の特徴がマッピングされた畳み込み特徴マップM0を出力する。本実施形態における畳み込みニューラルネットワーク30は、畳み込み層およびプーリング層を有する。この場合、畳み込み特徴マップM0のサイズは、入力画像S0のサイズよりも小さくなる。例えば、畳み込みニューラルネットワーク30に含まれるプーリング層が1つおよび2つのそれぞれ場合において、畳み込み特徴マップM0のサイズは、入力画像S0に対してそれぞれ1/4,1/16となる。なお、畳み込みニューラルネットワーク30がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップM0のサイズは入力画像S0と同一となる。ここで、畳み込みニューラルネットワークとしては、非特許文献1に記載された、ZeilerとFergusのモデルまたはSimonyanとZissermanのモデル等、公知のモデルを用いることができる。
[0033]

 第1の識別器40は、並進不変なRegion Proposal Network(物体領域提案ネットワーク、以下、RPN41とする)を有する。なお、RPN41が本開示の構成要素に対応する。RPN41は、畳み込みニューラルネットワーク30から入力された畳み込み特徴マップM0に含まれる物体候補領域を特定する。図4はRPNの構成を示す図である。図4に示すように、RPN41はスライディングウィンドウ42により畳み込み特徴マップM0をコンボリューションする。スライディングウィンドウ42は、畳み込み特徴マップM0上の各画素を中心とするn×n(例えば3×3)画素の領域内の信号値を抽出する。そして、RPN41は、畳み込み特徴マップM0上においてスライディングウィンドウ42を順次移動しつつ、畳み込み特徴マップM0におけるn×n画素の領域の信号値を抽出する。なお、本実施形態においては、畳み込み特徴マップM0におけるスライディングウィンドウ42の中心画素位置が、物体候補検出の対象画素位置となる。
[0034]

 ここで、RPN41においては、畳み込み特徴マップM0上において設定されたスライディングウィンドウ42の中心位置、すなわち畳み込み特徴マップM0における対象画素位置に設定される複数のアンカー43が予め定義されている。アンカー43は各種サイズおよび各種アスペクト比を有する矩形の領域である。例えば、本実施形態においては、RPNは、縦横1:1、2:1および1:2の3種類のアスペクト比、並びに面積として128画素、256画素および512画素の3種類のサイズを有する、合計9種類のアンカー43が定義されているとするが、アスペクト比および面積はこれらの値に限定されない。また、9種類よりも少ないまたは9種類よりも多いアンカー43を定義しておいてもよい。なお、アンカーの画素数は、入力画像S0に対する画素数であり、畳み込み特徴マップM0のサイズに応じて、アンカーのサイズも変更される。なお、本実施形態においては、畳み込み特徴マップM0の入力画像S0に対するサイズおよびアンカー43のサイズは説明のための例であり、実際には上述した例以外の種々の値を取り得る。
[0035]

 また、RPN41は、中間層44、分類層45および回帰層46を備える。中間層44は、スライディングウィンドウ42内のn×n画素の信号値を畳み込んで信号値の代表値を導出する。信号値の代表値は、例えば平均値、最大値および中間値等とすることができるが、これに限定されない。
[0036]

 分類層45は、中間層44が導出したスライディングウィンドウ42の代表値に基づいて、畳み込み特徴マップM0の対象画素位置についての物体候補の有無の判定、および対象画素位置に対応する入力画像S0上の対応画素位置における物体候補の有無の判定を行う。図5は分類層45が行う処理を模式的に示す図である。畳み込み特徴マップM0においては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層45は、対象画素位置において導出された上記代表値を予め定められたしきい値と比較し、対象画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図5においては、畳み込み特徴マップM0において斜線を付与した画素位置に物体候補が存在する。すなわち、畳み込み特徴マップM0において斜線を付与した画素位置は、物体候補領域にある。
[0037]

 対象画素位置が物体候補領域にあると判定された場合、分類層45は畳み込み特徴マップM0における対象画素位置に対してアンカー43を設定する。このために、分類層45は、物体候補領域にあると判定された畳み込み特徴マップM0における対象画素位置に対応する入力画像S0の対応画素位置を参照する。例えば、図5に示す対象画素位置Gtについて、入力画像S0における対象画素位置Gtに対応する複数の対応画素位置を参照する。ここで、本実施形態において、畳み込み特徴マップM0が入力画像S0の1/16のサイズであるとすると、入力画像S0における対象画素位置Gtに対応する対応画素位置は4×4=16画素からなる。なお、複数の対応画素位置からなる入力画像S0の領域を対応画素領域Rtと称する。
[0038]

 分類層45は、入力画像S0の対応画素領域Rtにおける各対応画素位置について、物体候補の有無の判定を行う。対応画素領域Rtにおいては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層45は、対応画素領域Rt内の各対応画素位置の信号値を予め定められたしきい値と比較し、対応画素領域Rt内の各対応画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図5においては、対応画素領域Rtにおいて斜線を付与した対応画素位置に物体候補が存在する。すなわち、入力画像S0の対応画素領域Rtにおいて斜線を付与した画素位置は、物体候補領域にある。なお、対応画素領域Rtにおいて物体候補を含む画素からなる領域が正解ボックス71となる。
[0039]

 続いて、分類層45はアンカーを選択する。具体的には、複数のアンカー43から、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択する。ここで、図5に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス71が横に並ぶ2つの画素からなるものとする。この場合、分類層45は、正解ボックス71とサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー43(43A,43B...)から選択する。例えば、図5に示すように、RPN41がそれぞれアスペクト比が縦横1:1、2:1および1:2である3種類のアンカー43A,43Bおよび43Cを有する場合、アスペクト比が1:2のアンカー43Cが選択される。なお、図5においては、説明を容易にするために、アンカー43A,43Bおよび43Cのサイズは、それぞれ縦横1×1画素、2×0.5画素および0.5×2画素となっている。
[0040]

 一方、図6に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス72が、縦に並ぶ2つの画素からなるものとする。この場合において、図6に示すように、RPN41がそれぞれアスペクト比が縦横1:1、2:1および1:2である3種類のアンカー43A,43Bおよび43Cを有する場合、アスペクト比が2:1のアンカー43Bが選択される。なお、図6においても、説明を容易なものとするために、アンカー43A,43Bおよび43Cのサイズは、それぞれ縦横1×1画素、2×0.5画素および0.5×2画素となっている。
[0041]

 また、図7に示すように対応画素領域Rt内において物体候補が存在する画素位置、すなわち正解ボックス73が1つの画素からなるものとする。この場合において、図7に示すように、RPN41がそれぞれアスペクト比が1:1であり、サイズが異なる3種類のアンカー43D,43Aおよび43Eを有する場合、中間のサイズのアンカー43Aが選択される。なお、図7においては、説明を容易なものとするために、アンカー43D,43Aおよび43Eのサイズは、それぞれ0.5×0.5画素、1×1画素および1.5×1.5画素となっている。
[0042]

 回帰層46は、選択されたアンカーの移動および変形の少なくとも一方を予測して、入力画像S0において、物体候補を囲む物体候補領域を特定する。すなわち、畳み込み特徴マップM0における対象画素位置に物体候補が含まれる場合に、分類層45が選択したアンカー43と正解ボックスとの差分を算出し、入力画像S0における物体候補領域を特定する。ここで、差分とは、選択されたアンカー43を正解ボックスに一致させるための、選択されたアンカー43の移動量および変形量である。移動量は入力画像S0の座標上における移動量であり、入力画像S0が2次元の場合はXY方向のそれぞれの移動量、3次元の場合はXYZ方向のそれぞれの移動量である。変形量は、入力画像S0が2次元の場合はXY方向のそれぞれの拡大率であり、3次元の場合はXYZ方向のそれぞれの拡大率である。
[0043]

 回帰層46は算出された差分に基づいて、入力画像S0における物体候補領域P0を特定する。すなわち、回帰層46は、入力画像S0に含まれる物体候補すなわち正解ボックスと一致する領域を物体候補領域P0として特定する。
[0044]

 ここで、第1の識別器40は、並進不変であるとしたが、並進不変であるとは、入力される画像(ここでは畳み込み特徴マップM0)上の位置に拘わらず、物体候補領域を特定するための判断基準が変わらないことを意味する。例えば、アンカーの選択の仕方、移動および変形の仕方が、入力される画像に含まれる物体の大きさおよび位置に拘わらず同一であることを意味する。
[0045]

 なお、本実施形態において、第1の識別器40、すなわちRPN41の学習は、以下のようにして行う。すなわち、各種入力画像についての畳み込み特徴マップM0を生成し、畳み込み特徴マップM0から識別すべき物体に外接する教師矩形領域を切り出す。そして、矩形領域の中心座標を含む画素位置に対応する入力画像の教師矩形領域(入力教師矩形領域とする)に含まれる物体のサイズおよびアスペクト比が最も類似するアンカーを複数のアンカー43から選択する。そして、入力教師矩形領域内の物体と選択されたアンカーとの差分を出力し、差分を最小にすべく、選択されたアンカーの移動および変形の少なくとも一方を行うように、RPN41を学習する。この際、確率的勾配降下法または誤差逆伝播法を用いて、RPN41を学習させればよい。ここで、差分とは、選択されたアンカーを入力教師矩形領域と一致させるためのアンカーの変形量および移動量である。例えば、入力画像が2次元である場合、アンカーの中心と入力教師矩形領域の中心とを一致させるためのX方向およびY方向のアンカーの移動量およびX方向およびY方向のアンカーの変形量である。変形量はアンカーを拡大または縮小することと同義であるため、変形量は拡大率と同義である。
[0046]

 第2の識別器50は、第1の識別器40が特定した物体候補領域P0に基づいて物体候補のカテゴリを特定する。なお、第2の識別器50は、特許文献1および非特許文献1に記載されたものと同一である。例えば、第2の識別器50は、プーリング層および1以上の全結合層を有するニューラルネットワークからなり、以下のようにして物体候補のカテゴリを特定する。まず、第2の識別器50は、第1の識別器40が特定した物体候補領域P0を畳み込み特徴マップM0から切り出し、必要であれば切り出した物体候補領域P0を、予め定められた大きさにリサイズする。そして、第2の識別器50は、切り出した物体候補領域P0を複数種類の物体と比較し、物体候補領域P0のカテゴリを特定する。
[0047]

 具体的には、第2の識別器50は、切り出した物体候補領域P0について、特定の物体であることの確率を表すスコアを出力し、物体候補領域P0をスコアが最も大きい物体に特定する。例えば、本実施形態において、入力画像S0を肺のCT画像であるとした場合、物体候補領域P0を、肺の疾患である浸潤影、腫瘤影、すりガラス影、小葉中心性結節影、非小葉中心性結節影、網状影、線状影、小葉間隔壁肥厚、蜂窩肺および嚢胞等のカテゴリのいずれかに特定する。一方、スコアがしきい値以上とならない場合、第2の識別器50は、物体候補領域P0のカテゴリを背景に特定する。
[0048]

 なお、第2の識別器50の学習は、各種物体の画像を教師画像とし、教師画像が入力された場合に、入力された教師画像に含まれる物体のカテゴリのスコアが100%となるように行われる。この際、第1の識別器40と同様に、確率的勾配降下法または誤差逆伝播法を用いて、学習を行えばよい。
[0049]

 また、第2の識別器50は、物体に外接する矩形の位置およびサイズを特定してもよい。この場合、切り出した物体候補領域P0が、より正確に物体に外接するように、畳み込み特徴マップM0における物体候補領域P0位置およびサイズを修正する処理を行うものとなる。
[0050]

 また、第2の識別器50は、物体候補領域P0に含まれる物体の輪郭を特定してもよい。
[0051]

 表示制御部23は、第1の識別器40が選択したアンカーを表示部14に表示する。また、第2の識別器50によるカテゴリの特定結果を表示部14に表示する。図8は、表示部14における結果画面を示す図である。図8に示すように、結果画面60は入力画像S0が表示される。また、結果画面60の右下隅に、使用したアンカーの種類およびサイズを表示するアンカー表示領域61を含む。図8においては、アスペクト比が1:1で面積が128画素のアンカーが選択されたことを示している。さらに、入力画像S0において特定された物体を囲む矩形B1が表示されている。また、結果画面60の左下隅には、矩形B1の物体のカテゴリを表示するカテゴリ表示領域62が含まれる。ここでは、特定された物体のカテゴリとして、「腫瘤影」が表示されている。
[0052]

 次いで、本実施形態において行われる処理について説明する。図9は本実施形態において行われる処理を示すフローチャートである。まず、画像取得部21が、入力画像S0を取得する(ステップST1)。次いで、物体特定部22の畳み込みニューラルネットワーク30が、入力画像S0から畳み込み特徴マップM0を生成する(ステップST2)。そして、第1の識別器40がアンカー43を選択し(ステップST3)、選択したアンカー43に基づいて、入力画像S0における物体候補領域P0を特定する(ステップST4)。そして、第2の識別器50が、物体候補領域P0における物体のカテゴリを特定する(ステップST5)。さらに、表示制御部23が、選択されたアンカーおよび特定された物体のカテゴリを含む結果画面60を表示部14に表示し(ステップST6)、処理を終了する。
[0053]

 ここで、特許文献1および非特許文献1に記載された手法においては、アンカーと正解ボックスとの重なりの大きさに基づいて、アンカーが選択される。例えば、図5に示すような正解ボックス71の場合、図7に示す最も大きい正方形のアンカー43Eが選択される。これに対して、本実施形態は、正解ボックスとの形状および大きさの類似度に基づいてアンカーが選択される。このため、上述したように、本実施形態においては、アンカー43Cが選択される。
[0054]

 このように、本実施形態においては、アンカーに基づいて物体候補領域P0を特定しているため、図6に示すような正解ボックス71の場合、アンカー43Eよりもアンカー43Cの方が、正解ボックス71に一致させるためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。したがって、本実施形態によれば、入力画像S0に含まれる物体を高速かつ効率よく特定することができる。
[0055]

 また、本実施形態においては、物体候補の正解ボックスに類似するようにアンカーを選択しているため、任意の形状またはアスペクト比を有する物体を、入力画像S0において特定することができる。例えば、上述したように入力画像S0を医用画像とした場合において、癌等の病変を特定したり、画像に含まれる人物、動物および自動車等を特定したりする場合にも、本実施形態を適用することができる。
[0056]

 なお、上記実施形態においては、第1の識別器40および第2の識別器50をニューラルネットワークからなるとしているが、これに限定されない。例えばサポートベクタマシン(SVM(Support Vector Machine))、および決定木であってもよい。
[0057]

 また、上記実施形態においては、物体特定部22が畳み込みニューラルネットワーク30を備えるとし、畳み込みニューラルネットワーク30において畳み込み特徴マップM0を生成し、生成された畳み込み特徴マップM0において、物体候補領域P0を特定しているが、これに限定されない。物体特定部22は畳み込みニューラルネットワーク30を備えず、第1の識別器40において、入力画像S0において物体候補領域P0を特定してもよい。この場合、第2の識別器50は、畳み込み特徴マップM0に基づいて物体のカテゴリを特定してもよいが、入力画像S0から物体候補領域P0を切り出して、物体のカテゴリを特定してもよい。
[0058]

 また、上記実施形態においては、畳み込みニューラルネットワーク30が畳み込み層およびプーリング層を有するとしているが、これに限定されない。畳み込みニューラルネットワーク30は、プーリング層を有さない、または逆畳み込み層をさらに有してもよい。畳み込みニューラルネットワーク30がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップM0のサイズは入力画像S0と同一となる。
[0059]

 また、上記実施形態において、例えば、画像取得部21、物体特定部22および表示制御部23といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
[0060]

 1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
[0061]

 複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
[0062]

 さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。

符号の説明

[0063]

   1  領域特定装置

   2  3次元画像撮影装置

   3  画像保管サーバ

   4  ネットワーク

   11  CPU

   12  メモリ

   13  ストレージ

   14  表示部

   15  入力部

   21  画像取得部

   22  物体特定部

   23  表示制御部

   30  畳み込みニューラルネットワーク

   40  第1の識別器

   41  RPN

   42  スライディングウィンドウ

   42A  中心画素

   43,43A~43F  アンカー

   44  中間層

   45  分類層

   46  回帰層

   50  第2の識別器

   60  結果画面

   61  アンカー表示領域

   62  カテゴリ表示領域

   71,72,73  正解ボックス

   B1  矩形

   Gt  対象画素位置

   Rt  対応画素領域

   M0  畳み込み特徴マップ

   S0  入力画像

   P0  物体候補領域

請求の範囲

[請求項1]

 入力画像に含まれる物体の領域を特定する領域特定装置であって、

 前記入力画像に含まれる物体候補を特定する第1の識別器を備え、

 前記第1の識別器は、各種形状および各種大きさを有する複数のアンカーから、前記物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する領域特定装置。
[請求項2]

 前記選択したアンカーを表示部に表示する表示制御部をさらに備えた請求項1に記載の領域特定装置。
[請求項3]

 前記表示制御部は、前記物体候補領域が特定された前記入力画像を前記表示部に表示する請求項2に記載の領域特定装置。
[請求項4]

 前記入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、

 前記第1の識別器は、前記畳み込み特徴マップに基づいて前記物体候補領域を特定する請求項1から3のいずれか1項に記載の領域特定装置。
[請求項5]

 前記物体候補領域に含まれる前記物体候補のカテゴリを特定する第2の識別器をさらに備えた請求項1から4のいずれか1項に記載の領域特定装置。
[請求項6]

 前記畳み込み特徴マップおよび前記物体候補領域に基づいて、前記物体候補のカテゴリを特定する第2の識別器をさらに備えた請求項4に記載の領域特定装置。
[請求項7]

 前記第2の識別器は、前記物体候補領域を修正する請求項5または6に記載の領域特定装置。
[請求項8]

 前記第2の識別器は、前記物体候補領域内における前記物体候補の輪郭を識別する請求項5から7のいずれか1項に記載の領域特定装置。
[請求項9]

 入力画像に含まれる物体の領域を特定する領域特定方法であって、

 各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、前記入力画像に含まれる物体候補を特定する領域特定方法。
[請求項10]

 入力画像に含まれる物体の領域を特定する領域特定方法をコンピュータに実行させる領域特定プログラムであって、

 各種形状および各種大きさを有する複数のアンカーから、前記入力画像に含まれる物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、該選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第1の識別器が、前記入力画像に含まれる物体候補を特定する手順をコンピュータに実行させる領域特定プログラム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]