Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018163243) OBJECT TRACKING DEVICE AND OBJECT TRACKING METHOD
Document

明 細 書

発明の名称 物体追跡装置及び物体追跡方法

技術分野

0001  

背景技術

0002  

先行技術文献

特許文献

0003  

発明の概要

発明が解決しようとする課題

0004   0005  

課題を解決するための手段

0006  

発明の効果

0007  

図面の簡単な説明

0008  

発明を実施するための形態

0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064  

産業上の利用可能性

0065  

符号の説明

0066  

請求の範囲

1   2   3   4   5   6   7  

図面

1   2   3   4   5   6   7   8   9   10   11   12  

明 細 書

発明の名称 : 物体追跡装置及び物体追跡方法

技術分野

[0001]
 この発明は、互いに異なる映像フレーム内に存在している物体の間の対応付けを行う物体追跡装置及び物体追跡方法に関するものである。

背景技術

[0002]
 近年、時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している1つ以上の物体を検出し、複数の映像フレーム内に存在している物体の間の対応付けを行うことで、物体の追跡を行う物体追跡装置が開発されている。
 以下の特許文献1に開示されている物体追跡装置は、時系列映像を撮影する撮影機器、あるいは、時系列映像の撮影環境が変化しても、物体の追跡精度の劣化を防止するために、物体の追跡パラメータを自動的に調整する機能を備えている。
 以下の特許文献1では、撮影機器の変化として、時系列映像の解像度の変化と、時系列映像のフレームレートの変化とが想定されている。
 また、以下の特許文献1では、撮影環境の変化として、撮影機器の設置角度の変化と、撮影機器と監視対象の物体との相対的な位置関係の変化とが想定されている。

先行技術文献

特許文献

[0003]
特許文献1 : 特開2012-59224号公報

発明の概要

発明が解決しようとする課題

[0004]
 従来の物体追跡装置は以上のように構成されているので、時系列映像を撮影する撮影機器、あるいは、時系列映像の撮影環境が変化しても、物体の追跡精度の劣化を防止することができる。しかし、複数の映像フレーム内に存在している物体の間の対応付けを行う際、映像フレーム内に存在している全ての物体を対応付けの対象に含めている。このため、例えば、物体の監視エリアが混雑している状況など、高精度に物体を検出することが困難な状況であっても、物体検出処理で検出された物体については、対応付けの対象に含められる。したがって、誤って検出された物体が対応付けの対象に含められる場合があり、このような場合には、物体の追跡精度が劣化してしまうという課題があった。
[0005]
 この発明は上記のような課題を解決するためになされたもので、物体の監視エリアが混雑している状況でも、物体の追跡精度の劣化を防止することができる物体追跡装置及び物体追跡方法を得ることを目的とする。

課題を解決するための手段

[0006]
 この発明に係る物体追跡装置は、時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している1つ以上の物体を検出する物体検出部と、映像フレーム毎に、物体検出部により検出された各々の物体が存在している領域の混雑度をそれぞれ推定する混雑度推定部と、映像フレーム毎に、混雑度推定部による混雑度の推定結果を参照して、物体検出部により検出された1つ以上の物体の中から、混雑度が第1の閾値以下の領域に存在している物体をそれぞれ選定する物体選定部と、映像フレーム毎に、物体選定部により選定された各々の物体の特徴量をそれぞれ算出する特徴量算出部とを設け、物体追跡部が、特徴量算出部により算出された各々の物体の特徴量に従って、物体選定部により選定された互いに異なる映像フレーム内に存在している物体の間の対応付けを行うようにしたものである。

発明の効果

[0007]
 この発明によれば、映像フレーム毎に、物体検出部により検出された各々の物体が存在している領域の混雑度をそれぞれ推定する混雑度推定部を設け、物体選定部が、映像フレーム毎に、混雑度推定部による混雑度の推定結果を参照して、物体検出部により検出された1つ以上の物体の中から、混雑度が第1の閾値以下の領域に存在している物体をそれぞれ選定するように構成したので、物体の監視エリアが混雑している状況でも、物体の追跡精度の劣化を防止することができる効果がある。

図面の簡単な説明

[0008]
[図1] この発明の実施の形態1による物体追跡装置を示す構成図である。
[図2] この発明の実施の形態1による物体追跡装置を示すハードウェア構成図である。
[図3] 図1の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
[図4] 図1の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合の処理手順である物体追跡方法を示すフローチャートである。
[図5] 物体検出部11による人物の検出結果及び信頼度の一例を示す説明図である。
[図6] 映像フレーム内の混雑度がヒートマップ化されている例を示す説明図である。
[図7] 混雑度に基づく物体選定部13の選定結果を示す説明図である。
[図8] 信頼度に基づく物体選定部13の選定結果を示す説明図である。
[図9] 時系列映像の解像度と時系列映像のフレームレートとの組み合わせに対応する特徴量の重み付け情報の一例を示す説明図である。
[図10] この発明の実施の形態2による物体追跡装置を示す構成図である。
[図11] この発明の実施の形態2による物体追跡装置を示すハードウェア構成図である。
[図12] この発明の実施の形態2による物体追跡装置の特徴量算出部40における処理内容を示すフローチャートである。

発明を実施するための形態

[0009]
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
[0010]
実施の形態1.
 図1は、この発明の実施の形態1による物体追跡装置を示す構成図であり、図2は、この発明の実施の形態1による物体追跡装置を示すハードウェア構成図である。
 図1及び図2において、カメラ1は、監視エリアを撮影する撮影機器であり、複数の映像フレームから構成されている時系列映像を撮影して、時系列映像を物体追跡装置に出力する。
 また、カメラ1は、時系列映像の解像度及び時系列映像のフレームレートを示す映像情報を物体追跡装置に出力する。
[0011]
 複数の映像フレームから構成されている時系列映像としては、動画などの映像が考えられるが、動画などの映像に限るものではなく、例えば、複数の静止画が時系列に並んでいる映像であってもよい。
 ここでは、撮影機器がカメラ1である例を示しているが、撮影機器は、カメラ1に限るものではなく、例えば、デジタルビデオレコーダなどであってもよい。
 また、複数の映像フレームから構成されている時系列映像が事前に記録されている記録媒体が、カメラ1の代わりに物体追跡装置に接続され、記録媒体に記録されている時系列映像が物体追跡装置に取り込まれるものであってもよい。
[0012]
 物体検出部11は、例えば図2に示す物体検出回路21で実現される。
 物体検出部11は、カメラ1から出力された時系列映像及び映像情報を取得する処理を実施する。
 また、物体検出部11は、取得した時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している1つ以上の物体を検出する処理を実施する。
 また、物体検出部11は、物体の検出結果の確からしさを示す信頼度をそれぞれ算出する処理を実施する。
[0013]
 混雑度推定部12は、例えば図2に示す混雑度推定回路22で実現される。
 混雑度推定部12は、映像フレーム毎に、当該映像フレームの映像を解析することで、物体検出部11により検出された各々の物体が存在している領域の混雑度をそれぞれ推定する処理を実施する。
 物体選定部13は、例えば図2に示す物体選定回路23で実現される。
 物体選定部13は、映像フレーム毎に、混雑度推定部12による混雑度の推定結果を参照して、物体検出部11により検出された1つ以上の物体の中から、混雑度が基準混雑度(第1の閾値)以下の領域に存在している物体をそれぞれ選定する処理を実施する。
 ただし、物体選定部13は、混雑度が基準混雑度よりも大きい領域に存在している物体であっても、物体検出部11により算出された検出結果の信頼度が基準信頼度(第2の閾値)以上の物体については選定する。
[0014]
 重み付け情報記憶部14は、例えば図2に示す重み付け情報記憶回路24で実現される。
 重み付け情報記憶部14は、時系列映像の解像度と時系列映像のフレームレートとの組み合わせ毎に、複数の特徴量の重み付けを示す重み付け情報を記憶している。
 特徴量算出部15は、例えば図2に示す特徴量算出回路25で実現される。
 特徴量算出部15は、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中で、カメラ1から出力された映像情報が示す時系列映像の解像度及びフレームレートの組み合わせと一致している組み合わせを特定する処理を実施する。
 また、特徴量算出部15は、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、特定した組み合わせに対応する重み付け情報を取得する。
 特徴量算出部15は、映像フレーム毎に、取得した重み付け情報に従って、物体選定部13により選定された各々の物体の特徴量をそれぞれ算出する処理を実施する。
[0015]
 物体追跡部16は、例えば図2に示す物体追跡回路26で実現される。
 物体追跡部16は、特徴量算出部15により算出された各々の物体の特徴量に従って、物体選定部13により選定された互いに異なる映像フレーム内に存在している物体の間の対応付けを行う。
[0016]
 図1では、物体追跡装置の構成要素である物体検出部11、混雑度推定部12、物体選定部13、重み付け情報記憶部14、特徴量算出部15及び物体追跡部16のそれぞれが、図2に示すような専用のハードウェアで実現されるものを想定している。即ち、物体検出回路21、混雑度推定回路22、物体選定回路23、重み付け情報記憶回路24、特徴量算出回路25及び物体追跡回路26で実現されるものを想定している。
 ここで、重み付け情報記憶回路24は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの不揮発性又は揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)などが該当する。
 また、物体検出回路21、混雑度推定回路22、物体選定回路23、特徴量算出回路25及び物体追跡回路26は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、または、これらを組み合わせたものが該当する。
[0017]
 ただし、物体追跡装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、物体追跡装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
 ソフトウェア又はファームウェアはプログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、DSP(Digital Signal Processor)などが該当する。
[0018]
 図3は、図1の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
 図3において、映像入力器31は、カメラ1に対するインタフェース機器であり、カメラ1から出力された時系列映像を取得する。
 映像情報入力器32は、カメラ1に対するインタフェース機器であり、カメラ1から出力された映像情報を取得する。
 プロセッサ33は、メモリ34に格納されているプログラムを実行する。
 メモリ34は、プロセッサ33が実行するプログラム及び重み付け情報などを格納している。
 結果出力器35は、例えば表示装置等に対するインタフェース機器であり、物体追跡装置の追跡結果などを出力する。
[0019]
 図1の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合、重み付け情報記憶部14をコンピュータのメモリ34上に構成するとともに、物体検出部11、混雑度推定部12、物体選定部13、特徴量算出部15及び物体追跡部16の処理手順をコンピュータに実行させるためのプログラムをメモリ34に格納し、コンピュータのプロセッサ33がメモリ34に格納されているプログラムを実行するようにすればよい。
 図4は、図1の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合の処理手順である物体追跡方法を示すフローチャートである。
[0020]
 次に動作について説明する。
 この実施の形態1では、物体の監視エリア内に複数の人物が存在しており、物体の追跡対象が監視エリア内に存在している複数の人物である例を説明する。
 ただし、物体の追跡対象は、監視エリア内に存在している物体であればよく、人物に限るものではない。このため、例えば、車両、動物又はロボットなどの物体が追跡対象であってもよい。
[0021]
 監視エリアを撮影するカメラ1は、複数の映像フレームから構成されている時系列映像を撮影して、時系列映像を物体追跡装置に出力する。
 また、カメラ1は、時系列映像の解像度及び時系列映像のフレームレートを示す映像情報を物体追跡装置に出力する。
[0022]
 物体検出部11は、カメラ1から出力された時系列映像を取得すると、時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している一人以上の人物を検出する(図4のステップST1)。
 映像フレーム内に存在している人物(物体)の検出処理自体は、公知の技術であるため詳細な説明を省略するが、例えば、以下の検出方法を用いることができる。
 例えば、映像フレームにおける色の勾配方向及び輝度の勾配方向を特徴量(ACF:Aggregated Channel Features)として抽出し、AdaBoost(Adaptive Boosting)分類器が、特徴量であるACFを用いて、人物を検出する方法を用いることができる。この検出方法は、以下の非特許文献1に開示されている。
[非特許文献1]
 “Fast Feature Pyramids for Object Detection”, In PAMI, 2014.
[0023]
 また、輝度の勾配を特徴量(HOG:Histograms Of Oriented Gradients)として抽出し、SVM(Support Vector Machine)識別器が、特徴量であるSVMを用いて、人物を検出する方法を用いることができる。この検出方法は、例えば、以下の非特許文献2に開示されている。
[非特許文献2]
 “Histograms of Oriented Gradients for Human Detection,”In CVPR, 2005
 また、深層学習を用いて、人物を検出する方法を用いることができる。この検出方法は、例えば、以下の非特許文献3に開示されている。
[非特許文献3]
 “Deep Neural Networks for Object Detection”,In NIPS, 2013
[0024]
 物体検出部11は、映像フレーム内に存在している一人以上の人物を検出すると、人物の検出結果を混雑度推定部12及び物体選定部13に出力する。
 物体検出部11は、人物の検出結果として、映像フレーム内で人物が存在している領域の座標を示す座標情報、あるいは、映像フレーム内に存在している人物を包含する矩形領域の座標を示す座標情報を出力する。
 人物が存在している領域の座標としては、例えば、人物の形状を表すエッジの座標などが考えられる。
 この実施の形態1では、人物を包含する矩形領域の座標についても、人物が存在している領域の座標として扱うものとする。
 また、物体検出部11は、人物の検出結果の確からしさを示す信頼度をそれぞれ算出し、算出した信頼度を物体選定部13に出力する(図4のステップST2)。
 検出結果の確からしさを示す信頼度は、物体検出部11により検出された物体が、人物である確率を示すものであり、人物である可能性が高いほど、大きな値となる。
 信頼度の算出方法は、公知の技術であるため詳細な説明を省略する。信頼度の算出方法は、例えば、以下の特許文献2に開示されている。
[特許文献2]特開2012-133445号公報
[0025]
 ここで、図5は、物体検出部11による人物の検出結果及び信頼度の一例を示す説明図である。
 図5は、1つの映像フレーム内に人物が6人に存在している例を示している。
 図5には、物体検出部11により検出された人物を包含する矩形領域が示されており、各々の矩形領域の周囲には、当該矩形領域に包含されている人物の検出結果の信頼度が示されている。
 図5では、物体検出部11により検出された6人の人物を識別するための記号として、人物を包含する矩形領域内にA,B,C,D,E及びFの記号を付している。
[0026]
 混雑度推定部12は、カメラ1から出力された時系列映像及び物体検出部11の検出結果を取得する。
 混雑度推定部12は、時系列映像を構成している映像フレーム毎に、当該映像フレームの映像を解析することで、物体検出部11により検出された各々の人物が存在している領域の混雑度をそれぞれ推定する(図4のステップST3)。
 領域の混雑度を推定する方法は、公知の技術であるため詳細な説明を省略する。混雑度の推定方法は、例えば、以下の非特許文献4に開示されている。
[非特許文献4]
 “Estimation of Crowd Density using Image Processing”In IEE Colloquium on Image Processing for Security Applications,2002.
[0027]
 図6は、映像フレーム内の混雑度がヒートマップ化されている例を示す説明図である。
 図6では、混雑度として、1平方メートル当りの人物の数(人数/m )を示している。
[0028]
 物体選定部13は、映像フレーム毎に、混雑度推定部12による混雑度の推定結果を参照して、物体検出部11により検出された一人以上の人物の中から、混雑度が基準混雑度以下の領域に存在している人物を選定する。
 ただし、物体選定部13は、混雑度が基準混雑度よりも大きい領域に存在している人物であっても、物体検出部11により算出された検出結果の信頼度が基準信頼度以上の人物については選定する。
 以下、物体選定部13による人物の選定処理を具体的に説明する。
[0029]
 物体選定部13は、映像フレーム毎に、混雑度推定部12による混雑度の推定結果を参照して、物体検出部11により検出された各々の人物が存在している領域の混雑度を把握する。
 次に、物体選定部13は、物体検出部11により検出された一人以上の人物の中に、未だ追跡対象の人物であるか否かの判定処理が済んでいない人物が残っているか否かを判定する(図4のステップST4)。判定処理は、ステップST5の処理又はステップST7の処理である。
 物体選定部13は、既に、追跡対象の人物であるか否かの判定処理が済んでいない人物が残っていなければ(図4のステップST4:NOの場合)、物体選定部13による人物の選定処理を終了して、ステップST8の処理に移行する。
[0030]
 物体選定部13は、未だ追跡対象の人物であるか否かの判定処理が済んでいない人物が残っていれば(図4のステップST4:YESの場合)、判定処理が済んでいない人物が存在している領域の混雑度と、事前に設定されている基準混雑度とを比較して、当該人物が存在している領域の混雑度が基準混雑度以下であるか否かを判定する(図4のステップST5)。
 物体選定部13は、人物が存在している領域の混雑度が基準混雑度以下であれば(図4のステップST5:YESの場合)、当該人物を追跡対象の人物として選定する(図4のステップST6)。
[0031]
 図7は、混雑度に基づく物体選定部13の選定結果を示す説明図である。
 図7の例では、混雑度が基準混雑度よりも大きい領域を混雑領域としており、人物C、人物D、人物E及び人物Fが混雑領域に存在している。
 このため、図7の例では、人物A及び人物Bが、追跡対象の人物として選定される。
[0032]
 物体選定部13は、人物が存在している領域の混雑度が基準混雑度よりも大きければ(図4のステップST5:NOの場合)、物体検出部11により算出された当該人物の検出結果についての信頼度と、事前に設定されている基準信頼度とを比較して、当該人物の検出結果についての信頼度が基準信頼度以上であるか否かを判定する(図4のステップST7)。
 物体選定部13は、当該人物の検出結果についての信頼度が基準信頼度以上であれば(図4のステップST7:YESの場合)、当該人物を追跡対象の人物として選定する(図4のステップST6)。
 物体選定部13は、当該人物の検出結果についての信頼度が基準信頼度よりも小さければ(図4のステップST7:NOの場合)、当該人物を追跡対象の人物から除外する。
 物体検出部11により検出された人物の全てについて、追跡対象の人物であるか否かの判定処理が終了するまで、ステップST4~ST7の処理が繰り返される。
[0033]
 図8は、信頼度に基づく物体選定部13の選定結果を示す説明図である。
 図8では、基準信頼度が50である例を示している。
 このため、図8の例では、人物C、人物D、人物E及び人物Fが混雑領域に存在しているが、人物E及び人物Fの検出結果についての信頼度が基準信頼度以上であるために、人物E及び人物Fが、追跡対象の人物として選定されている。
 一方、人物C及び人物Dの検出結果についての信頼度が基準信頼度よりも小さいために、人物C及び人物Dは、追跡対象の人物から除外されている。
 なお、人物Bの検出結果についての信頼度は、基準信頼度よりも小さいが、既に、混雑度に基づいて、追跡対象の人物として選定されている。
 このため、最終的には、人物A、人物B、人物E及び人物Fが追跡対象の人物として選定されている。
[0034]
 重み付け情報記憶部14には、時系列映像の解像度と時系列映像のフレームレートとの組み合わせ毎に、複数の特徴量の重み付けを示す重み付け情報が記憶されている。
 図9は、時系列映像の解像度と時系列映像のフレームレートとの組み合わせに対応する特徴量の重み付け情報の一例を示す説明図である。
 図9では、特徴量が「色」、「動き」及び「エッジ」である例を示している。色は物体である人物の色、動きは物体である人物の動き、エッジは物体である人物の形状を表すものである。
 図9では、時系列映像の解像度が〇〇〇[ppi]又は△△△[ppi]、フレームレートが□□□[fps]又は☆☆☆[fps]である例を示している。また、解像度〇〇〇[ppi]が解像度△△△[ppi]よりも高く、フレームレート□□□[fps]がフレームレート☆☆☆[fps]よりも高い例を示している。
 例えば、時系列映像の解像度が〇〇〇[ppi]で、時系列映像のフレームレートが□□□[fps]である場合の組み合わせは、「色」、「動き」及び「エッジ」に対する重み付けが、色:動き:エッジ=5:3:3であることを示している。
 また、時系列映像の解像度が△△△[ppi]で、時系列映像のフレームレートが☆☆☆□[fps]である場合の組み合わせは、「色」、「動き」及び「エッジ」に対する重み付けが、色:動き:エッジ=9:3:2であることを示している。
[0035]
 ここでは、時系列映像の解像度及び時系列映像のフレームレートに対応する特徴量の重み付け情報が重み付け情報記憶部14に記憶されている例を示しているが、これに限るものではない。
 例えば、カメラ1の設置角度及び追跡対象の物体の種類に対応する特徴量の重み付け情報が重み付け情報記憶部14に記憶されているものであってもよい。
 また、カメラ1の設置角度及び時系列映像内の混雑度合に対応する特徴量の重み付け情報が重み付け情報記憶部14に記憶されているものであってもよい。
[0036]
 特徴量算出部15は、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中で、カメラ1から出力された映像情報が示す時系列映像の解像度及びフレームレートの組み合わせと一致している組み合わせを特定する。
 次に、特徴量算出部15は、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、特定した組み合わせに対応する重み付け情報を取得する。
 次に、特徴量算出部15は、映像フレーム毎に、取得した重み付け情報に従って、物体選定部13により選定された各々の人物の特徴量Pをそれぞれ算出する(図4のステップST8)。
[0037]
 以下、各々の人物の特徴量Pの算出処理を簡単に説明する。
 特徴量算出部15は、例えば、人物の特徴量Pの要素として、人物の色を示す特徴量P 、人物の動きを示す特徴量P 及び人物のエッジを示す特徴量P をそれぞれ算出する。
 特徴量P ,P 及P の算出処理自体は、公知の技術であるため詳細な説明を省略する。
 特徴量算出部15は、人物の色を示す特徴量P 、人物の動きを示す特徴量P 及び人物のエッジを示す特徴量P をそれぞれ算出すると、重み付け情報記憶部14から取得した重み付け情報に従って、特徴量P ,P 及P の重み付け加算を行う。
 特徴量算出部15は、特徴量P ,P 及P の重み付け加算結果を最終的な特徴量Pとして物体追跡部16に出力する。
 例えば、時系列映像の解像度が△△△[ppi]で、時系列映像のフレームレートが□□□[fps]である場合、特徴量算出部15は、「色」、「動き」及び「エッジ」に対する重み付け情報として、色:動き:エッジ=5:4:3を取得する。
 この場合、特徴量算出部15は、この重み付け情報を用いて、例えば、以下の式(1)に示すように、特徴量Pを算出する。


[0038]
 物体追跡部16は、特徴量算出部15から物体選定部13により選定された各々の人物の特徴量Pを受けると、各々の人物の特徴量Pに従って、物体選定部13により選定された互いに異なる映像フレーム内に存在している人物の間の対応付けを行う(図4のステップST9)。
 物体追跡部16は、互いに異なる映像フレーム内に存在している人物の間の対応付け結果を人物の追跡結果として出力する。
 互いに異なる映像フレーム内に存在している人物の間の対応付け方法としては、例えば、以下の非特許文献5に開示されている方法を用いることができる。
[非特許文献5]
 “Globally-Optimal Greedy Algorithms for Tracking a Variable Number of Objects” In CVPR,2011.
[0039]
 人物の間の対応付けは、特徴量が近い人物同士を対応付けるものであり、以下、簡単に人物の間の対応付け例を説明する。
 例えば、映像フレーム(1)に存在している人物が、人物A、人物B、人物E及び人物Fであり、映像フレーム(2)に存在している人物が、人物A’、人物B’、人物E’及び人物F’であるとする。
 このとき、映像フレーム(1)に存在している人物Aの特徴量がP =30、人物Bの特徴量がP =40、人物Eの特徴量がP =50、人物Fの特徴量がP =60であるとする。
 また、映像フレーム(2)に存在している人物A’の特徴量がP ’=32、人物B’の特徴量がP ’=42、人物E’の特徴量がP ’=48、人物F’の特徴量がP ’=67であるとする。
 さらに、対応付けが可能な2つの映像フレーム間での特徴量の最大差分が3であるとする。
[0040]
 この場合、映像フレーム(1)に存在している人物Aの特徴量P =30は、映像フレーム(2)に存在している4人の人物の特徴量の中で、人物A’の特徴量P ’=32が最も近い。また、人物Aの特徴量P =30と、人物A’の特徴量P ’=32との差分が2であり、この差分が特徴量の最大差分である3よりも小さい。このため、映像フレーム(1)に存在している人物Aと映像フレーム(2)に存在している人物A’とが対応付けられる。
[0041]
 映像フレーム(1)に存在している人物Bの特徴量P =40は、映像フレーム(2)に存在している4人の人物の特徴量の中で、人物B’の特徴量P ’=42が最も近い。また、人物Bの特徴量P =40と、人物B’の特徴量P ’=42との差分が2であり、この差分が特徴量の最大差分である3よりも小さい。このため、映像フレーム(1)に存在している人物Bと映像フレーム(2)に存在している人物B’とが対応付けられる。
[0042]
 映像フレーム(1)に存在している人物Eの特徴量P =50は、映像フレーム(2)に存在している4人の人物の特徴量の中で、人物E’の特徴量P ’=48が最も近い。また、人物Eの特徴量P =50と、人物E’の特徴量P ’=48との差分が2であり、この差分が特徴量の最大差分である3よりも小さい。このため、映像フレーム(1)に存在している人物Eと映像フレーム(2)に存在している人物E’とが対応付けられる。
[0043]
 映像フレーム(1)に存在している人物Fの特徴量P =60は、映像フレーム(2)に存在している4人の人物の特徴量の中で、人物F’の特徴量P ’=67が最も近い。
 しかしながら、人物Fの特徴量P =60と、人物F’の特徴量P ’=67との差分が7であり、この差分が特徴量の最大差分である3以上である。このため、映像フレーム(1)に存在している人物Fは、映像フレーム(2)に存在しているどの人物とも対応付けられない。
 また、映像フレーム(2)に存在している人物F’についても、映像フレーム(1)に存在しているどの人物とも対応付けられない。
[0044]
 ここでは、映像フレーム(1)に存在している人物Aの特徴量がP =30である例を示しているが、例えば、映像フレーム(1)に存在している人物Aの特徴量がP =37である場合、映像フレーム(2)に存在している4人の人物の特徴量の中で、人物A’の特徴量P ’=32と人物B’の特徴量P ’=42との2つが最も近い。
 しかし、人物Aの特徴量P =37と、人物A’の特徴量P ’=32との差分が5であり、この差分が特徴量の最大差分である3以上である。また、人物Aの特徴量P =37と、人物B’の特徴量P ’=42との差分が5であり、この差分が特徴量の最大差分である3以上である。
 このため、映像フレーム(1)に存在している人物Aは、映像フレーム(2)に存在しているどの人物とも対応付けられない。
[0045]
 以上で明らかなように、この実施の形態1によれば、映像フレーム毎に、物体検出部11により検出された各々の物体が存在している領域の混雑度をそれぞれ推定する混雑度推定部12を設け、物体選定部13が、映像フレーム毎に、混雑度推定部12による混雑度の推定結果を参照して、物体検出部11により検出された1つ以上の物体の中から、混雑度が第1の閾値以下の領域に存在している物体をそれぞれ選定するように構成したので、物体の監視エリアが混雑している状況でも、物体の追跡精度の劣化を防止することができる効果を奏する。
[0046]
 また、この実施の形態1によれば、物体選定部13が、混雑度が第1の閾値よりも大きい領域に存在している物体であっても、物体検出部11により算出された検出結果の信頼度が第2の閾値以上の物体については選定するように構成したので、物体の追跡精度の劣化を招くことなく、追跡可能な物体の数を増やすことができる効果を奏する。
[0047]
 この実施の形態1では、物体検出部11が、各々の物体の検出結果の確からしさを示す信頼度をそれぞれ算出する例を示したが、物体選定部13が、物体検出部11による各々の物体の検出結果の確からしさを示す信頼度をそれぞれ算出するようにしてもよい。
[0048]
実施の形態2.
 上記実施の形態1では、特徴量算出部15が、重み付け情報記憶部14に記憶されている複数の組み合わせに対応する重み付け情報の中から、カメラ1から出力された映像情報が示す解像度及びフレームレートの組み合わせと一致している組み合わせに対応する重み付け情報を取得する例を示している。
 しかしながら、重み付け情報記憶部14には、カメラ1から出力された映像情報が示す解像度及びフレームレートの組み合わせと一致している組み合わせに対応する重み付け情報が記憶されていない場合もある。
 この実施の形態2では、カメラ1から出力された映像情報が示す解像度及びフレームレートの組み合わせと一致している組み合わせに対応する重み付け情報が記憶されていない場合でも、特徴量算出部15が、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、適正な重み付け情報を取得できる例を説明する。
[0049]
 図10は、この発明の実施の形態2による物体追跡装置を示す構成図であり、図11は、この発明の実施の形態2による物体追跡装置を示すハードウェア構成図である。
 図10及び図11において、図1及び図2と同一符号は同一または相当部分を示すので説明を省略する。
 特徴量算出部40は、例えば図11に示す特徴量算出回路50で実現される。
 特徴量算出部40は、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中に、物体検出部11に与えられる時系列映像の解像度と物体検出部11に与えられる時系列映像のフレームレートとの組み合わせと一致している組み合わせがあるか否かを判定する処理を実施する。
 即ち、特徴量算出部40は、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中に、カメラ1から出力された映像情報が示す解像度及びフレームレートの組み合わせと一致している組み合わせがあるか否かを判定する処理を実施する。
 特徴量算出部40は、一致している組み合わせがあると判定すれば、重み付け情報記憶部14から一致している組み合わせに対応する重み付け情報を取得する処理を実施する。
[0050]
 特徴量算出部40は、一致している組み合わせがないと判定すれば、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせにおける解像度及びフレームレートと、カメラ1から出力された映像情報が示す解像度及びフレームレートとの類似度をそれぞれ算出する処理を実施する。
 特徴量算出部40は、算出した類似度に基づいて、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、いずれか1つの重み付け情報を取得する処理を実施する。
 特徴量算出部40は、図1の特徴量算出部15と同様に、映像フレーム毎に、取得した重み付け情報に従って、物体選定部13により選定された各々の人物の特徴量をそれぞれ算出する処理を実施する。
[0051]
 図10では、物体追跡装置の構成要素である物体検出部11、混雑度推定部12、物体選定部13、重み付け情報記憶部14、特徴量算出部40及び物体追跡部16のそれぞれが、図11に示すような専用のハードウェアで実現されるものを想定している。即ち、物体検出回路21、混雑度推定回路22、物体選定回路23、重み付け情報記憶回路24、特徴量算出回路50及び物体追跡回路26で実現されるものを想定している。
 物体検出回路21、混雑度推定回路22、物体選定回路23、特徴量算出回路50及び物体追跡回路26は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、または、これらを組み合わせたものが該当する。
[0052]
 ただし、物体追跡装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、物体追跡装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
 図10の物体追跡装置がソフトウェア又はファームウェアなどで実現される場合、重み付け情報記憶部14を図3に示すコンピュータのメモリ34上に構成するとともに、物体検出部11、混雑度推定部12、物体選定部13、特徴量算出部40及び物体追跡部16の処理手順をコンピュータに実行させるためのプログラムをメモリ34に格納し、コンピュータのプロセッサ33がメモリ34に格納されているプログラムを実行するようにすればよい。
[0053]
 次に動作について説明する。
 特徴量算出部40以外は、上記実施の形態1と同様であるため、以下、図12を参照しながら、特徴量算出部40の処理内容だけを説明する。
 図12は、この発明の実施の形態2による物体追跡装置の特徴量算出部40における処理内容を示すフローチャートである。
[0054]
 特徴量算出部40は、カメラ1から出力された映像情報を取得する(図12のステップST11)。
 特徴量算出部40は、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中に、取得した映像情報が示す解像度及びフレームレートの組み合わせと一致している組み合わせがあるか否かを判定する(図12のステップST12)。
 図9の例では、時系列映像の解像度とフレームレートの組み合わせとして、解像度が〇〇〇[ppi]又は△△△[ppi]と、フレームレートが□□□[fps]又は☆☆☆[fps]である場合の4通りの組み合わせである。
 したがって、図9の例では、取得した映像情報が示す解像度が〇〇〇[ppi]又は△△△[ppi]であり、かつ、取得した映像情報が示すフレームレートが□□□[fps]又は☆☆☆[fps]であれば、特徴量算出部40は、一致している組み合わせがあると判定する。
[0055]
 特徴量算出部40は、一致している組み合わせがあると判定すれば(図12のステップST12:YESの場合)、重み付け情報記憶部14から一致している組み合わせに対応する重み付け情報を取得する(図12のステップST13)。
 特徴量算出部40は、一致している組み合わせがないと判定すれば(図12のステップST12:NOの場合)、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせにおける解像度及びフレームレートと、取得した映像情報が示す解像度及びフレームレートとの類似度をそれぞれ算出する(図12のステップST14)。
[0056]
 特徴量算出部40による類似度の算出方法は、特に問わないが、例えば、以下のように、類似度を算出する。
 ここでは、説明の便宜上、取得した映像情報が示す解像度がa、取得した映像情報が示すフレームレートがbであるとする。
 また、解像度〇〇〇[ppi]がa 、解像度△△△[ppi]がa 、フレームレート□□□[fps]がb 、フレームレート☆☆☆[fps]がb であるとする。
 解像度〇〇〇[ppi]とフレームレート□□□[fps]の組み合わせが組み合わせ(1)、解像度〇〇〇[ppi]とフレームレート☆☆☆[fps]の組み合わせが組み合わせ(2)、解像度△△△[ppi]とフレームレート□□□[fps]の組み合わせが組み合わせ(3)、解像度△△△[ppi]とフレームレート☆☆☆[fps]の組み合わせが組み合わせ(4)であるとする。
[0057]
 特徴量算出部40は、以下の式(2)に示すように、取得した映像情報が示す解像度aと、解像度a との差分Δa を算出するとともに、以下の式(3)に示すように、取得した映像情報が示す解像度aと、解像度a との差分Δa を算出する。





 また、特徴量算出部40は、以下の式(4)に示すように、取得した映像情報が示すフレームレートbと、フレームレートb との差分Δb を算出するとともに、以下の式(5)に示すように、取得した映像情報が示すフレームレートbと、フレームレートb との差分Δb を算出する。





[0058]
 特徴量算出部40は、以下の式(6)に示すように、組み合わせ(1)における解像度a 及びフレームレートb と、取得した映像情報が示す解像度a及びフレームレートbとの類似度R を算出する。式(6)において、Gは定数である。


 特徴量算出部40は、以下の式(7)に示すように、組み合わせ(2)における解像度a 及びフレームレートb と、取得した映像情報が示す解像度a及びフレームレートbとの類似度R を算出する。


[0059]
 また、特徴量算出部40は、以下の式(8)に示すように、組み合わせ(3)における解像度a 及びフレームレートb と、取得した映像情報が示す解像度a及びフレームレートbとの類似度R を算出する。


 特徴量算出部40は、以下の式(9)に示すように、組み合わせ(4)における解像度a 及びフレームレートb と、取得した映像情報が示す解像度a及びフレームレートbとの類似度R を算出する。


[0060]
 ここでは、解像度の差分Δaと、フレームレートの差分Δbとの間に重みを付けずに、類似度Rを算出している例を示しているが、例えば、以下の式(10)に示すように、解像度の差分Δaと、フレームレートの差分Δbとの間に重みを付けて、類似度Rを算出するようにしてもよい。式(10)は、組み合わせ(1)についての類似度R の算出例を示しており、w は差分Δa に対する重み係数、w は差分Δb に対する重み係数である。なお、w 及びw は、0以上1以下の値である。


[0061]
 特徴量算出部40は、全ての組み合わせについての類似度Rを算出すると、全ての組み合わせについての類似度Rを比較し、最も高い類似度に係る組み合わせを特定する(図12のステップST15)。
 特徴量算出部40は、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、最も高い類似度に係る組み合わせに対応する重み付け情報を取得する(図12のステップST16)。
 例えば、組み合わせ(1)~(4)の中で、最も高い類似度に係る組み合わせが組み合わせ(1)であれば、「色」、「動き」及び「エッジ」に対する重み付けが、色:動き:エッジ=5:3:3であることを示する重み付け情報を取得する。
 また、最も高い類似度に係る組み合わせが組み合わせ(2)であれば、「色」、「動き」及び「エッジ」に対する重み付けが、色:動き:エッジ=8:2:2であることを示する重み付け情報を取得する。
[0062]
 特徴量算出部40は、重み付け情報を取得すると、図1の特徴量算出部15と同様に、映像フレーム毎に、取得した重み付け情報に従って、物体選定部13により選定された各々の人物の特徴量をそれぞれ算出する(図12のステップST17)。
[0063]
 以上で明らかなように、この実施の形態2によれば、特徴量算出部40が、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせの中に、物体検出部11に与えられる時系列映像の解像度と物体検出部11に与えられる時系列映像のフレームレートとの組み合わせと一致している組み合わせがなければ、重み付け情報記憶部14に記憶されている複数の重み付け情報に対応する組み合わせにおける解像度及びフレームレートと、物体検出部11に与えられる時系列映像の解像度及び物体検出部11に与えられる時系列映像のフレームレートとの類似度をそれぞれ算出する。そして、特徴量算出部40が、算出した類似度に基づいて、重み付け情報記憶部14に記憶されている複数の重み付け情報の中から、いずれか1つの重み付け情報を取得し、取得した重み付け情報に従って物体選定部13により選定された各々の物体の特徴量をそれぞれ算出する。これにより、物体検出部11に与えられる時系列映像の解像度及びフレームレートの組み合わせと一致している組み合わせに対応する重み付け情報が重み付け情報記憶部14に記憶されていない場合でも、適正な重み付け情報を取得することができる効果を奏する。
[0064]
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

産業上の利用可能性

[0065]
 この発明は、互いに異なる映像フレーム内に存在している物体の間の対応付けを行う物体追跡装置及び物体追跡方法に適している。

符号の説明

[0066]
 1 カメラ、11 物体検出部、12 混雑度推定部、13 物体選定部、14 重み付け情報記憶部、15 特徴量算出部、16 物体追跡部、21 物体検出回路、22 混雑度推定回路、23 物体選定回路、24 重み付け情報記憶回路、25 特徴量算出回路、26 物体追跡回路、31 映像入力器、32 映像情報入力器、33 プロセッサ、34 メモリ、35 結果出力器、40 特徴量算出部、50 特徴量算出回路。

請求の範囲

[請求項1]
 時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している1つ以上の物体を検出する物体検出部と、
 映像フレーム毎に、前記物体検出部により検出された各々の物体が存在している領域の混雑度をそれぞれ推定する混雑度推定部と、
 映像フレーム毎に、前記混雑度推定部による混雑度の推定結果を参照して、前記物体検出部により検出された1つ以上の物体の中から、混雑度が第1の閾値以下の領域に存在している物体をそれぞれ選定する物体選定部と、
 映像フレーム毎に、前記物体選定部により選定された各々の物体の特徴量をそれぞれ算出する特徴量算出部と、
 前記特徴量算出部により算出された各々の物体の特徴量に従って、前記物体選定部により選定された互いに異なる映像フレーム内に存在している物体の間の対応付けを行う物体追跡部と
 を備えた物体追跡装置。
[請求項2]
 前記物体検出部は、映像フレーム内に存在している各々の物体の検出結果の確からしさを示す信頼度をそれぞれ算出し、
 前記物体選定部は、混雑度が前記第1の閾値よりも大きい領域に存在している物体であっても、前記物体検出部により算出された検出結果の信頼度が第2の閾値以上の物体については選定することを特徴とする請求項1記載の物体追跡装置。
[請求項3]
 前記物体選定部は、前記物体検出部による各々の物体の検出結果の確からしさを示す信頼度をそれぞれ算出し、混雑度が前記第1の閾値よりも大きい領域に存在している物体であっても、算出した信頼度が第2の閾値以上の物体については選定することを特徴とする請求項1記載の物体追跡装置。
[請求項4]
 前記物体の特徴量として、複数の特徴量があり、
 複数の特徴量の重み付け情報を記憶している重み付け情報記憶部を備え、
 前記特徴量算出部は、前記重み付け情報記憶部に記憶されている重み付け情報に従って前記物体選定部により選定された各々の物体の特徴量をそれぞれ算出することを特徴とする請求項1記載の物体追跡装置。
[請求項5]
 前記重み付け情報記憶部は、時系列映像の解像度と時系列映像のフレームレートとの組み合わせ毎に、前記重み付け情報を記憶していることを特徴とする請求項4記載の物体追跡装置。
[請求項6]
 前記特徴量算出部は、前記重み付け情報記憶部に記憶されている複数の重み付け情報に対応する組み合わせの中に、前記物体検出部に与えられる時系列映像の解像度と前記物体検出部に与えられる時系列映像のフレームレートとの組み合わせと一致している組み合わせがなければ、前記重み付け情報記憶部に記憶されている複数の重み付け情報に対応する組み合わせにおける解像度及びフレームレートと、前記物体検出部に与えられる時系列映像の解像度及び前記物体検出部に与えられる時系列映像のフレームレートとの類似度をそれぞれ算出し、前記類似度に基づいて、前記重み付け情報記憶部に記憶されている複数の重み付け情報の中から、いずれか1つの重み付け情報を取得し、取得した重み付け情報に従って前記物体選定部により選定された各々の物体の特徴量をそれぞれ算出することを特徴とする請求項5記載の物体追跡装置。
[請求項7]
 物体検出部が、時系列映像を構成している映像フレーム毎に、当該映像フレーム内に存在している1つ以上の物体を検出し、
 混雑度推定部が、映像フレーム毎に、前記物体検出部により検出された各々の物体が存在している領域の混雑度をそれぞれ推定し、
 物体選定部が、映像フレーム毎に、前記混雑度推定部による混雑度の推定結果を参照して、前記物体検出部により検出された1つ以上の物体の中から、混雑度が第1の閾値以下の領域に存在している物体をそれぞれ選定し、
 特徴量算出部が、映像フレーム毎に、前記物体選定部により選定された各々の物体の特徴量をそれぞれ算出し、
 物体追跡部が、前記特徴量算出部により算出された各々の物体の特徴量に従って、前記物体選定部により選定された互いに異なる映像フレーム内に存在している物体の間の対応付けを行う
 物体追跡方法。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]