Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019008961) DISPOSITIF DE TRAITEMENT D'INFORMATIONS, PROCÉDÉ DE TRAITEMENT D'INFORMATIONS ET PROGRAMME
Document

明 細 書

発明の名称 情報処理装置、情報処理方法、およびプログラム

技術分野

0001  

背景技術

0002   0003   0004   0005  

先行技術文献

特許文献

0006  

発明の概要

発明が解決しようとする課題

0007   0008  

課題を解決するための手段

0009   0010   0011   0012   0013   0014   0015   0016  

発明の効果

0017  

図面の簡単な説明

0018   0019  

発明を実施するための形態

0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24  

図面

1   2   3   4   5   6   7   8   9   10   11  

明 細 書

発明の名称 : 情報処理装置、情報処理方法、およびプログラム

技術分野

[0001]
 本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、データをグループ化する情報処理装置、情報処理方法、およびプログラムに関する。

背景技術

[0002]
 画像や文書といったデータは、データ同士が完全に一致しているかどうかというより、それらのデータが持つ特徴の類似性などで評価されるデータである。このようなデータを分類したり、要約したりする場合、データ間が一定の類似度以上になるもの同士をまとめる操作、すなわち、類似性に基づくグループ化が有効である。
[0003]
 このような類似に基づくグループ化を実現する検索システムの一例が特許文献1に記載されている。特許文献1に記載のシステムは、検索結果を類似に基づいてグループ化する際、あるデータが、あるグループの代表データと類似の閾値を超えた場合、そのグループに登録することを特徴としている。
[0004]
 また、特許文献2に記載されているデータベース管理方法では、グループ化データベースは小データベースを含んでいる。小データベースには、特定の分類データをもつデータセット毎にデータが格納されている。そして、与えられた検索条件を用いてグループ化データベースに対する検索が行われる。また、与えられた検索条件は、検索結果データベースに順次格納される。さらに、小データベースは、与えられた検索条件のうち頻度の高い検索条件に沿うように再編成される。
[0005]
 特許文献3には、データベースに蓄積された生体情報を効率よくグループ化する方法が記載されている。特許文献3に記載の装置では、まず、蓄積された顔画像から抽出された特徴量に基づいて、データベースに蓄積されている全ての顔画像間の類似度を求める。そして、類似度が第1閾値よりも高い顔画像同士を同一の第1のグループとしてグループ化するとともに、第1のグループのいずれにも属さず、かつ顔画像間の類似度が第2閾値(<第1閾値)よりも高い顔画像同士を同一の第2のグループとしてグループ化する。第1閾値は、他人受入率がゼロを保証できる範囲になる値に設定され、第2閾値は、本人棄却率がある程度保証される値に設定される。

先行技術文献

特許文献

[0006]
特許文献1 : 特開2000-112988号公報
特許文献2 : 特開平07-105239号公報
特許文献3 : 特開2012-008836号公報

発明の概要

発明が解決しようとする課題

[0007]
 グループ化の対象となるデータ間の類似度自身が誤差を含み、類似度計算のアルゴリズムが必ずしも現実世界を正確に反映した値を返さない、または、アルゴリズムの結果と人が思う結果にずれがある等、必ずしも正しいとは限らないことが多い。そのため、望ましいグループ化の結果が得られないという問題点があった。
[0008]
 本発明は上記事情に鑑みてなされたものであり、その目的とするところは、データのグループ化を高精度に行う情報処理装置、情報処理方法、およびプログラムを提供することにある。

課題を解決するための手段

[0009]
 本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。
[0010]
 第一の側面は、情報処理装置に関する。
 第一の側面に係る情報処理装置は、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を有し、
 前記グループ化手段は、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する。
[0011]
 第二の側面は、少なくとも1つのコンピュータにより実行される情報処理方法に関する。
 第二の側面に係る情報処理方法は、
 情報処理装置が、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなす第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
 前記グループ化を行う際、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、ことを含む。
[0012]
 なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも1つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
 このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、情報処理装置上で、その情報処理方法を実施させるコンピュータプログラムコードを含む。
[0013]
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
[0014]
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
[0015]
 また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。
[0016]
 さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。

発明の効果

[0017]
 上記各側面によれば、データのグループ化を高精度に行う情報処理装置、情報処理方法、およびプログラムを提供することができる。

図面の簡単な説明

[0018]
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
[0019]
[図1] 本発明の実施の形態に係る情報処理装置の構成を論理的に示す機能ブロック図である。
[図2] 本実施形態の情報処理装置を実現するコンピュータの構成の一例を示す図である。
[図3] 計算されたデータ間の類似度と、実際のデータの類似性の違いを説明するための図である。
[図4] 本実施形態の情報処理装置の動作の一例を示すフローチャートである。
[図5] 本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。
[図6] 本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。
[図7] 本実施形態の情報処理装置の対象データ記憶部に記憶される処理対象データのデータ構造の例を模式的に示す図である。
[図8] 本実施形態の情報処理装置の構成を論理的に示す機能ブロック図である。
[図9] 本実施形態の情報処理装置の構成を論理的に示す機能ブロック図である。
[図10] グループからデータを除外して閾値を調整する処理を説明するための図である。
[図11] 複数のグループを一つのグループに結合して閾値を調整する処理を説明するための図である。

発明を実施するための形態

[0020]
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
[0021]
(第1の実施の形態)
 本発明の第1の実施の形態について、以下説明する。
 図1は、本発明の実施の形態に係る情報処理装置100の構成を論理的に示す機能ブロック図である。
 本実施形態の情報処理装置100は、入力部102と、グループ化部104とを備えている。
[0022]
 情報処理装置100は、図2に示すコンピュータ80により実現される。
 図2は、本実施形態の情報処理装置100を実現するコンピュータ80の構成の一例を示す図である。
 コンピュータ80は、CPU(Central Processing Unit)82、メモリ84、メモリ84にロードされた図1の構成要素を実現するプログラム90、そのプログラム90を格納するストレージ85、I/O(Input/Output)86、およびネットワーク接続用インタフェース(通信I/F87)を備える。
[0023]
 CPU82、メモリ84、ストレージ85、I/O86、通信I/F87は、バス89を介して互いに接続され、CPU82により情報処理装置100全体が制御される。ただし、CPU82などを互いに接続する方法は、バス接続に限定されない。
[0024]
 メモリ84は、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。ストレージ85は、ハードディスク、SSD(Solid State Drive)、またはメモリカードなどの記憶装置である。
[0025]
 ストレージ85は、RAMやROMなどのメモリであってもよい。ストレージ85は、コンピュータ80の内部に設けられてもよいし、コンピュータ80がアクセス可能であれば、コンピュータ80の外部に設けられ、コンピュータ80と有線または無線で接続されてもよい。あるいは、コンピュータ80に着脱可能に設けられてもよい。
[0026]
 CPU82が、ストレージ85に記憶されるプログラム90をメモリ84に読み出して実行することにより、図1の情報処理装置100の各ユニットの各機能を実現することができる。
[0027]
 I/O86は、コンピュータ80と他の入出力装置間のデータおよび制御信号の入出力制御を行う。他の入出力装置とは、たとえば、コンピュータ80に接続されるキーボード、タッチパネル、マウス、およびマイクロフォン等の入力装置(不図示)と、ディスプレイ、プリンタ、およびスピーカ等の出力装置(不図示)と、これらの入出力装置とコンピュータ80のインタフェースとを含む。さらに、I/O86は、他の記録媒体の読み取りまたは書き込み装置(不図示)とのデータの入出力制御を行ってもよい。
[0028]
 通信I/F87は、コンピュータ80と外部の装置との通信を行うためのネットワーク接続用インタフェースである。通信I/F87は、有線回線と接続するためのネットワークインタフェースでもよいし、無線回線と接続するためのネットワークインタフェースでもよい。
[0029]
 図1の本実施形態の情報処理装置100の各構成要素は、図2のコンピュータ80のハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各実施形態の情報処理装置100を示す機能ブロック図は、ハードウェア単位の構成ではなく、論理的な機能単位のブロックを示している。
[0030]
 情報処理装置100は、複数のコンピュータ80により構成されてもよいし、仮想サーバにより実現されてもよい。
 なお、各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
[0031]
 図1に戻り、入力部102は、複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値(以下、第1閾値δaとも呼ぶ)と、第1閾値δaより小さい(低い)値を示す第2の閾値(以下、第2閾値δbとも呼ぶ)とを入力する。
 グループ化部104は、複数のデータ間の類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する。具体的には、グループ化部104は、代表データとの類似度が第1閾値δaより高いデータを同じグループに含め、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータの中から選択する。ここで、新たな代表データとは、既に存在している代表データのグループとは別のグループの代表となるデータである。
[0032]
 第1閾値δaは、ある代表データと同じグループに属するとみなすための閾値であり、第2閾値δbは、その代表データと同じグループに属さないとみなす閾値である。あるいは、第1閾値δaは、必ずある代表データと同じグループに属するとみなすための閾値であり、第2閾値δbは、その代表データと同じグループに属する可能性はあるとみなすための閾値とも言える。
[0033]
 ここで、データとは、文書、画像、動画、音声、音響、波形、動線、形状(立体も含む)等を含む。本実施形態のデータは、データをグループ化する際に、データ同士が完全に一致しているかどうかというより、データが有している特徴量の類似性等により評価されるデータである。
[0034]
 なお、データの特徴量の抽出は、公知の技術を用いて行うことができ、特に限定されない。本実施形態の情報処理装置100は、文書、画像、動画、音声といったデータをそれらの特徴量に基づきグループ化するものであるが、これらのデータを要約する用途にも適用できる。例えば、グループ化部104により分類されたグループの代表データを要約として利用できる。
[0035]
 入力部102による閾値の入力方法は様々考えられるが、以下に例示される。以下は複数を組み合わせてもよい。
(A1)設定ファイルやプログラムから読み出して入力する。
(A2)コンピュータ80に接続される入力装置(キーボード、マウス、タッチパネル等)を用いたユーザ操作により受け付けた値を入力する。この場合、閾値設定用の画面にGUI(Graphical User Interface)を設け、ユーザ操作を受け付ける。
(A3)通信網を介して受信した値を入力する。
[0036]
 本実施形態では、類似度は、値が大きい(高い)程類似していることを示す。そして、あるデータ間の類似度が第1閾値δaより高い場合に、それらのデータは同じグループに属するとみなされる。一方、第2閾値δbは、第1閾値δaより低い値を示し、かつあるデータ間の類似度が第2閾値δbより低い場合に、それらのデータは同じグループに属さないとみなされる。
[0037]
 他の実施形態では、類似度に替えて乖離度を用いてもよい。乖離度を用いる場合は値が低い程類似していることを示す。乖離度の場合は、閾値との判定不等号の向きが逆になる。つまり、あるデータ間の乖離度が第1の閾値より低い場合に、それらのデータは同じグループに属するとみなされる。一方、第2の閾値は、第1の閾値より大きい(高い)値を示し、かつあるデータ間の乖離度が第2の閾値より高い場合に、それらのデータは同じグループに属さないとみなされる。
[0038]
 ここで、本実施形態で2つの閾値を用いる意味について説明する。
 上記したように、類似度自身が誤差を含む場合において、図3(a)は1つの閾値を用いたグループ化の例を示し、図3(b)は2つの閾値を用いたグループ化の例を示す。
 図3(a)に示すように、中心にある点をグループの代表となる代表データ10とし、類似閾値δqの範囲の領域20をそのグループに属するデータとする。代表データ10以外のデータは、×印で示してある。しかし、類似度自身が誤差を含むため、真にそのグループの代表データ10と同じグループに属するべきデータの分布30(図中、破線で示される)は、その類似閾値δqによって描かれる領域20と必ずしも一致しない。
[0039]
 このため、ある閾値を設定した時、本来同一グループに入るべきデータが別のデータに分かれたり、異なるグループに入るべきデータ同士が同じグループに入ったりすることが起こる。
[0040]
 例えば、図3(a)の符号20をグループ1の領域とし、一点鎖線で示される符号22をグループ2の領域とする。ここで、データ40は、グループ1の分布30の外側に存在し、本来はグループ2に属すべきデータである。また、データ42は、グループ1の分布30の内側に存在し、本来はグループ1に属すべきデータである。しかし、類似度自身が誤差を含むため、閾値を用いたグループ化によれば、データ40は、グループ2の領域22の内側に存在するためグループ2に分類され、データ42は、グループ1の領域20の内側に存在するためグループ1に分類されることになる。
[0041]
 一般的に、類似に基づくグループ化の閾値を高くしすぎると本来同一グループに入るべきデータが別のデータに分かれることが起こりやすくなり、閾値を低くしすぎると異なるグループに入るべきデータ同士が同じグループに入ることが起こりやすくなる。さらに、データによっては、閾値を高くした方がよりよいグループになる場合と、閾値が低くした方がよりよいグループになる場合との双方が起き、本質的に最適な閾値を求めることができない。
[0042]
 このように、データの分布によって、同一グループに属するべきデータが別グループに属する、または、別グループに属するべきデータが同一グループに属するといった結果になることがあるため、グループ化の閾値をいくら変化させても望ましいグループ化の結果が得られないという問題点があった。
[0043]
 図3(b)に示すように、本発明では2つの閾値(δa、δb)を用いることで、データ40とデータ42はともに、グループ1にも他のグループにも属さないデータとして分類される。データ40とデータ42は、第1閾値δaと第2閾値δbの間の領域50(ハッチングで示される)に含まれている。これらのデータは、どのグループ属するのか自動的には判断できないものとしてユーザに提示される。
[0044]
 図1に戻り、情報処理装置100は、記憶装置110にアクセス可能に接続される。記憶装置110は、たとえば、ハードディスク、SSD(Solid State Drive)、またはメモリカードなどであり、情報処理装置100に含まれてもよいし、外部装置であってもよい。また、記憶装置110は、複数の記憶装置から構成されてもよい。
[0045]
 記憶装置110は、対象データ記憶部112と、代表データ記憶部114と、結果データ記憶部116とを含む。
 対象データ記憶部112は、情報処理装置100がグループ化処理を行う対象となるデータを記憶する。対象データ記憶部112には、データそのものが記憶されていてもよいし、あるいは、対象データ記憶部112にはデータの格納場所を示すパス名(ファイル名を含む)とその特徴量情報を記憶してもよい。また、対象データ記憶部112は、データの特徴量同士を比較して求めた類似度を記憶してもよい。
[0046]
 代表データ記憶部114は、グループ化部104により選択された代表データを記憶する。具体的には、グループ毎に代表データの情報を記憶する。例えば、代表データ記憶部114にはグループ毎に代表データのファイル名またはパス名が当該グループのIDに関連付けられて記憶される。
[0047]
 結果データ記憶部116は、グループ化部104によりグループ化された結果データを記憶する。具体的には、グループ毎に代表データと、そのグループに含まれるデータの情報を記憶する。例えば、結果データ記憶部116には、グループ毎に代表データまたは当該グループに属するデータの、ファイル名またはパス名が当該グループのIDに関連付けられて記憶される。
[0048]
 また、第1閾値δaおよび第2閾値δbは、コンピュータ80のメモリ84またはストレージ85あるいは、記憶装置110に記憶される。
[0049]
 このよう構成された本実施形態の情報処理装置100の動作について以下説明する。
 図4は、本実施形態の情報処理装置100の動作の一例を示すフローチャートである。
 本実施形態の情報処理装置100が、第1閾値δaと、第2閾値δbとを入力し(ステップS101)、類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する。その際、情報処理装置100は、代表データとの類似度が第1閾値δaより高いデータを(ステップS105のYES)同じグループに含め(ステップS107)、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータ(ステップS109のYES)の中から選択する(ステップS111)。つまり、類似度が第2閾値δbより低いデータの中から選択する。ここで、最初の代表データ10の選択方法は、特に限定されず、条件なしで任意のデータを選択できる。また、ユーザ操作により選択できてもよい。
[0050]
 より詳細には、まず、入力部102は、第1閾値δaと第2閾値δbの入力を受け付ける(ステップS101)。各閾値は、例えば、コンピュータ80の表示装置(不図示)に表示される設定画面を用いて、コンピュータ80の入力装置を用いたユーザ操作により入力される。入力部102が受け付けた第1閾値δaと第2閾値δbは、コンピュータ80のストレージ85に記憶される。
[0051]
 そして、グループ化部104は、対象データ記憶部112から処理対象となるデータを取得する(ステップS103)。ここでは、処理対象となるデータを一つずつ順次読み出して処理するものとしているが、複数のデータを一緒に読み出して処理を行ってもよい。また、上記したように、対象データ記憶部112に記憶されている情報がデータの特徴量である場合は、グループ化部104はデータではなくデータの特徴量を取得する。なお、データを読み出す場合は、読み出したデータから特徴量を抽出する処理もグループ化部104が行ってもよい。上記したように、対象データ記憶部112に各データ間の類似度が記憶されている場合は、グループ化部104は類似度を取得してもよい。
[0052]
 ここで、本明細書において、「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと(能動的な取得)、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、自装置に他の装置から出力されるデータまたは情報を入力すること(受動的な取得)、たとえば、配信(または、送信、プッシュ通知等)されるデータまたは情報を受信すること等、の少なくともいずれか一方を含む。また、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することも含む。
[0053]
 そして、グループ化部104は、対象データ記憶部112から読み出したデータが、それぞれどのグループに属するべきかを以下の手順で判定する。まず、グループ化部104は、データと代表データ10の特徴量を元にデータと代表データ10間の類似度を算出する。そして、算出された各代表データ10とデータとの類似度が第1閾値δa以上か否かを判定する(ステップS105)。
[0054]
 言い換えると、対象データ記憶部112から読み出したデータについて、代表データ10との間の類似度≧閾値δaとなる代表データ10を探す。複数の代表データ10がある場合、データは各代表データ10との間の類似度についてそれぞれ判定する。そして、ステップS103で読み出したデータと第1閾値δa以上類似する代表データ10があった場合は(ステップS105のYES)、グループ化部104は、当該代表データ10のグループに当該データを追加し、結果データ記憶部116に記憶する(ステップS107)。上記したように、対象データ記憶部112に類似度が記憶されている場合は、類似度の算出は省略される。なお、ステップS105で第1閾値δaより高い代表データ10がなかった場合(ステップS105のNO)、ステップS109に進む。
[0055]
 次に、グループ化部104は、第2閾値δbより類似する代表データ10がないか否かを判定する(ステップS109)。つまり、対象データ記憶部112から読み出したデータについて、代表データ10との間の類似度<閾値δbとなる代表データ10を探す。条件を満たす代表データ10がなかった場合(ステップS109のYES)、グループ化部104は、当該データを新たな代表データ10として追加して代表データ記憶部114に記憶する(ステップS111)。ステップS109で第2閾値δbより類似する代表データ10があった場合(ステップS109のNO)、ステップS111はバイパスしてステップS113に進む。
[0056]
 そして、未処理のデータ(ステップS105および/またはステップS109の類似判定処理を行っていないデータ)がなければ(ステップS113のNO)、ステップS107とステップS111で結果データ記憶部116に記憶された結果を出力する(ステップS115)。未処理のデータがある場合(ステップS113のYES)、ステップS103に戻り、未処理のデータがなくなるまで処理を繰り返し、対象データ記憶部112の全データについて類似判定処理を行う。
[0057]
 ステップS115での結果データの出力方法は様々考えられ、以下に例示されるがこれらに限定されない。また、以下の複数を組み合わせてもよい。情報処理装置100は、結果データ記憶部116に記憶された結果データを出力する出力部(不図示)をさらに備える。出力部は、例えば、コンピュータ80に接続される表示装置、プリンタ、コンピュータ80の通信I/F87、I/O86等である。
[0058]
 出力部は、以下の少なくともいずれか一つの出力方法で結果データを出力する。
(B1)コンピュータ80に接続される表示装置に画面表示する。
(B2)コンピュータ80に接続されるプリンタに印字出力する。
(B3)コンピュータ80と通信可能な装置に結果データをネットワークを介して送信する。
(B4)結果データのファイルを記憶媒体に記憶する。
[0059]
 表示装置に表示する場合、出力部は、例えば、後述する実施形態のツリー構造を模式的に図示して画面表示してもよいし、リストを画面表示してもよい。ファイル名またはパスなどをリンクとして表示し、リンクをクリックするとデータにアクセスできてもよい。また、画像データの場合、サムネイルを表示してもよい。
[0060]
 また、出力部は、例えば、グループ化されたデータを、グループ毎に、所定の記憶装置、または、所定の記憶領域(フォルダ等)に分けて記憶してもよい。
[0061]
 図3(b)において、データ40およびデータ42は、代表データ10との類似度が第1閾値δaより低く、かつ、第2閾値δbより高いため、いずれのグループにも分類されない。出力部は、このようにいずれのグループに分類するか判断が付かないデータに関する情報ついても出力するので、これらのデータについては別途適切な処理を行いグループに分類することが可能になる。
[0062]
 また、本実施の形態の情報処理装置100は、コンピュータプログラム90に対応する各種の処理動作をCPU82が実行することにより、前記した図1に示す各種ユニットが各種機能として実現される。
 本実施形態のコンピュータプログラム90は、情報処理装置100を実現させるためのコンピュータ80に、第1閾値δaと第2閾値δbと入力する手順、類似度、第1閾値δa、および第2閾値δbを用いてデータをグループ化する手順を実行させ、代表データとの類似度が第1閾値δaより高いデータを同じグループに含める手順、新たな代表データを、既に存在している代表データとの類似度が第2閾値δbより低いデータの中から選択する手順、を実行させるように記述されている。
[0063]
 本実施形態のコンピュータプログラム90は、コンピュータ80で読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラム90は、記録媒体からコンピュータ80のメモリ84にロードされてもよいし、ネットワークを通じてコンピュータ80にダウンロードされ、メモリ84にロードされてもよい。
[0064]
 コンピュータプログラム90を記録する記録媒体は、非一時的な有形のコンピュータ80が使用可能な媒体を含み、その媒体に、コンピュータ80が読み取り可能なプログラムコードが埋め込まれる。
[0065]
 以上説明したように、本実施形態によれば、グループ化部104により、類似度が第2閾値δbより低いデータは別グループと判定され、また、新たな代表データとして扱われる。このため、この新たな代表データは、既に選ばれている代表データとは別の対象を示す可能性が高まる。従って、別対象が同一グループになる可能性が低くなり、グループ分けの精度の悪化を回避できるようになる。
[0066]
 さらに、グループ化部104により、あるグループの代表データとの類似度が閾値δaより高いデータは、当該代表データのグループに属することになる。このため、その代表データと同一の対象である可能性が高まる。従って、同一対象が別グループになる可能性が低くなり、グループ分けの精度の悪化を回避できる。
[0067]
(第2の実施の形態)
 次に、本発明の第2の実施の形態について、以下説明する。
 本実施形態は、グループ化の対象となるデータ群は、図5に示すようなツリー構造で既に管理されている点以外は、上記実施形態と同様である。
 図5~図7は、本実施形態の情報処理装置100の対象データ記憶部112に記憶される処理対象データのデータ構造の例を模式的に示す図である。
[0068]
 各ノード(A1、A2、・・・、Ln-1、Ln)はデータ群を表し、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値(δ1~δ12)が設定されている。各データ間の類似度が、設定されている閾値を越えた(閾値より高い)データがその上位ノードの下位に位置する。また、これらの閾値は、リーフ方向(下位)に進むに従って大きく(高く)なるように設定されている(例えば、δ1<δ2<δ3<δ4)。
[0069]
 初期状態では、代表データ記憶部114と結果データ記憶部116は空である。類似度に基づく閾値として、同一グループとみなすための第1閾値δaと、同一グループとみなさないための第2閾値δbは、予め入力部102により入力されて設定済みであるとする。ここで、δa≧δbである。
[0070]
 以下、図4のフローチャートを用いて、図5~図7について説明する。
 まず、入力部102は、第1閾値δaと第2閾値δbの入力を予め受け付け、設定済みであるとする(ステップS101)。ここで、δ3<δa<δ2であるとする。そして、グループ化部104は、対象データ記憶部112から処理対象となるデータ(図5)にアクセスする(ステップS103)。
[0071]
 ここでは、初期状態として、代表データ記憶部114が空のため、代表データ10がないので(ステップS105のNO、ステップS109のYES)、グループ化部104は、適当なデータを代表データ10に選ぶ。これは、どのような方法であっても構わない。ここでは、グループ化部104は、図5のツリーをリーフ方向にたどる。そして、リンクに設定されている閾値(ここでは、δ2)が第1閾値δaよりはじめて大きい(高い)リンクを持つノードを選択する。ここでは、上記したようにδ3<δa<δ2であるため、ノードC1・・・Cn(ここではC1とする)が選択される。そして、ノードC1のデータを代表データ10として選び、当該データを代表データ記憶部114に格納する(ステップS111)。
[0072]
 そして、ステップS113に進み、未処理データの処理を行うためにステップS103の戻り、グループ化部104は、対象データ記憶部112にアクセスする。ここでは、上記したように、δa<δ2であり、かつ、δ1<δ2<δ3<δ4である。このため、図5において、ノードC1以下のノード(D1~Dn、E1~En、F1~Fn)にあるデータと代表データ10(ノードC1のデータ)との類似度は第1閾値δaより高くなる(ステップS105のYES)。そして、グループ化部104は、ノードC1以下のサブツリーにあるノード(D1~Dn、E1~En、F1~Fn)のデータをグループ1として(図6参照)、結果データ記憶部116に格納する(ステップS107)。
[0073]
 そして、ステップS113に進み、未処理データの処理を行うためにステップS103の戻り、グループ化部104は、対象データ記憶部112にアクセスする。上記実施形態では、対象データ記憶部112からデータを一つずつ読み出して、第1閾値δaより高い類似度を有する代表データ10を探してデータが属するべきグループを特定していた。本実施形態では、あるグループの代表データ10を起点としてツリーをたどることで、各代表データ10のグループに属するノードの範囲を求めている。
[0074]
 具体的には、グループ化部104は、図6において、代表データ10のノードC1のデータを起点としてツリーを下位方向にたどり、ノードC1のデータ(代表データ10)との類似度が第1閾値δaより高いデータを(ステップS105のYES)、グループ1に追加する(ステップS107)。つまり、ノードC1より下位に閾値するノードD1~Dn、E1~En、およびF1~Fnがグループ1に追加される。
[0075]
 そして、グループ化部104は、さらに、図7において、ノードC1を起点としてツリーを上位方向にたどり、ノードC1のデータ(代表データ10)との類似度が第2閾値δbより低いノードを探す(ステップS109)。もし、ノードC1のデータ(代表データ10)との類似度が第2閾値δbより低いデータがあれば(ステップS109のYES)、グループ化部104は、それを新しい代表データ10として代表データ記憶部114に追加する(ステップS111)。
[0076]
 図7において、ノードC1を起点としてノード間のデータの類似度は、各ノード間のリンクの閾値から求めることができる。例えば、ノードC1とノードBnの間の類似度は、ノードC1のリンクの閾値からノードBnのリンクの閾値を引いた値(δ(C1-Bn))である。この値が第2閾値δbより小さいノードを探す(ステップS109)。
[0077]
 ここでは、ノードBnとノードC1との類似度(δ(C1-Bn))は第2閾値δbより低いとする(ステップS109のYES)。よって、グループ化部104は、ノードBnのデータを新たなグループ2の代表データ10として選択する。
[0078]
 そして、グループ化部104は、ノードBnを起点としてツリーを下位方向にたどり、新たな代表データ10(ノードBnのデータ)との類似度が第1閾値δaより高いデータがあれば(ステップS105のYES)、グループ2に追加する(ステップS107)。ここでは、そして、上記と同様に、ノードBnを起点としてツリーを下位方向にたどり、ノードBnのデータ(代表データ10)との類似度が第1閾値δaより高いデータを(ステップS105のYES)、グループ2に追加する(ステップS107)。つまり、ノードBnより下位に位置するノードH1~Hnのデータがグループ2に追加される。
[0079]
 そして、未処理データがなくなるまで上記で示した手順を繰り返す。ツリー内データの走査が全て終わり、未処理データがなくなれば(ステップS113のNO)、グループ化部104は、結果を返す(ステップS115)。結果データは、例えば、上記したようにコンピュータ80の表示装置に表示したり、プリンタに印字出力したりする。
[0080]
 以上説明したように、本実施形態の情報処理装置100によれば、上記実施形態と同様な効果を奏するとともに、さらに、対象データ記憶部112においてツリー構造でデータを管理し、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値を設定するので、第1閾値δaおよび第2閾値δbとの比較処理を簡素化でき、高速に処理できる。
[0081]
 具体的には、ツリーに設定されるノード間のリンクの閾値を元に、代表データ10を起点としてツリーを下位方向にたどり、第1閾値δaより高い閾値のノードを代表データ10のグループに追加し、一方、代表データ10を起点としてツリーを上位方向にたどり、リンクの閾値から算出される代表データ10と各ノード間の類似度が、第2閾値δbより低いノードを新たな代表データ10に追加し、処理を繰り返す。このようにツリーを用いて課題にグループ化を行うことができる。
[0082]
 また、代表データ10の選択方法において、本実施形態では、ツリーをたどって各リンクの閾値が第1閾値δaより高いノードを探索して代表データ10とすることができるので、適当に任意の代表データ10を選択するよりも精度がよく、効率もよい。
[0083]
(第3の実施の形態)
 次に、本発明の第3の実施の形態について、以下説明する。
 本実施形態では、上記実施形態のグループ化処理において、いずれのグループにも属さなかったデータの処理方法について説明する。すなわち、第1閾値δaと第2閾値δbの間に位置するデータの処理方法について説明する。
[0084]
 データ処理方法は、以下に例示されるが、これらに限定されない。
(C1)グループ化によっていずれのグループにも属さないデータを破棄する。
(C2)グループとの相対的な関係に基づいてグループ化する。
(C3)データの割合で破棄かグループに入れるかを切り替える。
[0085]
 以下、順に説明する。
<C1:データ破棄>
 グループ化部104は、グループ化によっていずれのグループにも属さないデータを破棄してもよい。
 この方法は、データとして映像に映った顔の特徴量など、膨大な数のデータがある一方で、映った顔の角度や光の条件などにより、同一の判定が難しい場合に有効な方法である。つまり、グループ化の結果の質を悪化させる要因となるデータを積極的に捨てることで、グループ化の結果の質を向上させることができる。
[0086]
 いずれのグループにも属さないデータとは、全てのグループの代表データ10との類似度が第2閾値より低いデータである。
[0087]
 データの破棄は、自動的に行われてもよいし、破棄前に、ユーザに破棄対象となるデータを提示し、ユーザによる破棄の指示の操作を受け付けてから破棄してもよい。また、破棄対象となるデータの中からユーザ操作による破棄データの選択を受け付け、選択されたデータを破棄してもよい。具体的には、対象データ記憶部112またはデータの格納場所からデータを削除するか、または、データを他の格納場所に移動する。
[0088]
<C2:相対的な関係に基づくグループ化>
 グループ化部104は、複数のグループのうち一のグループの代表データ10との類似度が第1閾値δaと第2閾値δbの間であり、かつ、当該一のグループ以外の他のグループの代表データ10との類似度は第2閾値より低いデータは、上記した一のグループに含める。つまり、このようなデータについては、複数のグループそれぞれに対する類似度の比較に基づいて、属するべきグループが選択される。
[0089]
 例えば、あるデータがグループXの代表データ10に対する類似度が第2閾値δbより高く、残りのすべてのグループについては代表データ10に対する類似度が第2閾値δbより低い場合、グループ化部104は、当該データをグループXに追加する。つまり、類似度が第1閾値δaよりは低いが、第2閾値δbよりは高いため、当該グループに属するかもしれないとする。例えば、データ件数が十分でない場合、結果として捨てるデータを減らすことができる。
[0090]
<C3:破棄か追加かを切替>
 上記(C1)と上記(C2)の方法を、いずれのグループにも属さないデータの全データに対する割合に応じて切り替える。例えば、データ全体に対して捨てることになるデータの割合が所定値より小さければ上記(C1)の方法を、所定値より大きければ上記(C2)の方法を実行する。所定値はデータの種類やデータ総数に応じて適宜設定できるものとする。
[0091]
 図8は、本実施形態の情報処理装置100の構成を論理的に示す機能ブロック図である。
 情報処理装置100は、いずれのグループにも属さないデータの全データに対する割合に応じて、上記(C1)の方法と上記(C2)の方法のいずれを実行するかを決定し、グループ化部104に処理させる制御部130をさらに備える。
 制御部130は、いずれのグループにも属さないデータの全データに対する割合が所定値以上の場合、複数のグループのうち一のグループの代表データ10との類似度が第1閾値δaと第2閾値δbの間であり、かつ、当該一のグループ以外の他のグループの代表データ10との類似度は第2閾値δbより低いデータは、一のグループに含め(C2)、割合が所定値未満の場合、いずれのグループにも属さないデータを破棄する(C1)。
[0092]
 また、グループ化によっていずれのグループにも属さないデータのうち、あるグループの代表データ10との類似度が第2閾値δbより高い場合、そのグループ含めてもよい。この処理は、自動的に行われてもよいし、ユーザによるグループに含めるデータの選択を受け付けてもよい。
[0093]
 また、出力部は、いずれのグループにも属さないデータの量、または、いずれのグループにも属さないデータの全データに対する割合を出力する。データの量は、例えば、データ数、または、データサイズ等である。
[0094]
 以上説明したように、本実施形態の情報処理装置100によれば、上記実施形態と同様な効果を奏するとともに、さらに、いずれのグループにも属さないデータがある場合に、それらのデータを適切に処理することで、各グループ内のデータの精度を向上させることができる。
[0095]
 つまり、本実施形態によれば、グループ化の判断に迷うデータだけの調整が可能になる。このようなデータは第1閾値δaと第2閾値δbの間にあるデータとして取り出すことができる。このため、これらのデータだけ、閾値を越えたかどうかの絶対的な関係ではなく、構成されたグループの相対的な関係に基づいて属すべきグループを決めるといったような構成をとることができるようになる。
[0096]
(第4の実施の形態)
 次に、本発明の第4の実施の形態について、以下説明する。
 本実施形態は、さらに、閾値を調整することでグループ内のデータの精度を向上する構成を有する点で上記実施形態と相違する。上記の第1閾値δaおよび第2閾値δbを最初から適切な値として指定することは困難であるため、適当な値を設定した後、閾値を調整する。本実施形態は、他の実施形態の少なくとも一つと組み合わせることができる。
[0097]
 本実施形態では、グループ化結果に基づいて、ユーザのフィードバックを基に、閾値を再設定する。
 調整方法は以下に例示されるが、これらに限定されない。また、以下は矛盾のない範囲で複数組み合わせてもよい。
(D1)あるグループから適切でないデータを除外し、第1閾値δaを調整する。
(D2)同一とみなせる複数のグループを選択して結合し、これに合わせて第2閾値δbを調整する。
(D3)グループ毎に閾値を設定する。
[0098]
 以下、順に説明する。
<D1:データ除外およびこれに伴う第1閾値δaの調整>
 図9は、本発明の実施の形態に係る情報処理装置100の構成を論理的に示す機能ブロック図である。
 情報処理装置100は、入力部102と、グループ化部104と、受付部122と、調整部124と、制御部130と、を備える。入力部102とグループ化部104は、図1または図8の上記実施形態と同様である。制御部130は図8の上記実施形態と同様である。
[0099]
 受付部122は、グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける。グループ化された結果の出力方法は、上記実施形態で説明したように様々考えられるが、ここではコンピュータ80に接続された表示装置に表示されるものとして説明する。例えば、図7のようなツリー構造とグループ名を模式的に図示して画面表示してもよいし、各グループのデータをリストで画面表示してもよい。ファイル名またはパスなどをリンクとして表示し、リンクをクリックするとデータにアクセスできてもよい。また、画像データの場合、サムネイルを表示してもよい。受付部122は、グループ化された結果をコンピュータ80の表示装置に表示するとともに、コンピュータ80の操作部(不図示)を用いたユーザ操作により選択された少なくとも一つの除外対象のデータを受け付ける。
[0100]
 また、除外対象としてユーザが選択したデータを代表データ10と比較できるように並べて提示し、ユーザに本当に除外してもよいか否かを問い合わせるメッセージを表示し、ユーザによる確認またはキャンセル操作を受け付ける構成としてよい。また、グループから除外するデータの選択でもよいし、グループから除外しないデータの選択をユーザ操作により受け付けてもよい。
[0101]
 調整部124は、除外されるデータと、当該データが属していた第1グループの代表データ10との類似度に基づいて、第1閾値δaを調整する。グループ化部104は、受付部122が受け付けた除外対象のデータをグループから除外する。なお、グループ化部104は、調整部124により調整された第1閾値δaを用いて、処理対象データ全体に対して再グループ化処理を行ってもよい。
[0102]
 調整部124は、除外されるデータと代表データ10との類似度より高い値に第1閾値δaを変更する。図10(a)は、除外前のグループ1のデータ分布を模式的に示している。丸は代表データ10、×印はグループ1のデータ、△はグループ1以外のデータを示している。図10(b)は、データ44がユーザ操作により除外されたときのグループ1のデータ分布を模式的に示している。グループ1の代表データ10とデータ44の類似度がδ1であった場合、調整前の第1閾値δa<δ1である。
[0103]
 ここで、データ44がグループ1から除外されると、調整部124は、第1閾値δa′>δ1となるように第1閾値δaを調整する。図10(b)では、調整前の第1閾値δaは破線で示されていて、調整後の第1閾値δa′は一点鎖線で示されている。
[0104]
 複数の除外データがある場合、調整部124における調整方法は、以下に例示されるがこれらに限定されない。
(E1)複数の除外データのそれぞれと代表データ10との類似度のうち最も高い類似度に所定値を加算した値とする。
(E2)複数の除外データのそれぞれと代表データ10との類似度の平均値に所定値を加算した値とする。
(E3)複数の除外データのうち、代表データ10との類似度が最高と最低のもの除いて、上記(E1)または上記(E2)で調整する。
[0105]
 また、受付部122は、あるグループに含まれていなかったデータをあるグループに追加する操作を受け付けてもよい。この場合、調整部124は、追加データと代表データ10との類似度より低い値に第1閾値δaを調整してもよい。このとき、第2閾値δb<第1閾値δaとなるように各閾値を調整する。
[0106]
 グループ化部104は、調整部124により調整された閾値を用いて処理対象データ全体に対して再度グループ化を行ってもよい。
[0107]
<D2:グループ結合およびこれに伴う第2閾値δbの調整>
 受付部122は、グループ化された結果を出力するとともに、同じグループに属するとみなす複数のグループを選択する操作を受け付ける。
 すると、グループ化部104は、受付部122により受け付けた複数のグループを一つのグループにまとめる。また、調整部124は、選択された複数のグループの代表データ10同士の類似度に基づいて、第2閾値δbを調整する。具体的には、調整部124は、受付部122が受け付けた複数のグループの代表データ10同士の類似度より低い値に第2閾値δbを調整する。調整部124は、さらに、第1閾値δaを調整してもよい。
[0108]
 グループ化部104は、調整部124により調整された閾値を用いて、処理対象データ全体に対して再度グループ化処理を行ってもよい。
[0109]
 図11を用いて、2つのグループ1とグループ2を同じグループに結合する場合について説明する。図11(a)は、結合前のデータ分布を示している。グループ1の代表データ10とグループ2の代表データ12の類似度がδ2であったとする。
[0110]
 調整部124は、グループ1の第2閾値δbを類似度δ2より低い値δb′に調整する。図11(b)に示すように、グループ2の代表データ12であったデータがグループ1の第2閾値δbの範囲の内側に入っている。
[0111]
 ここでは、第2閾値δbを調整する例を示しているが、第1閾値δaを調整してもよい。つまり、第1閾値δaを類似度δ2より低い値に調整してもよい。第1閾値δaと第2閾値δbのどちらを調整するかはユーザにより選択されてもよいし、予め定められていてもよい。
[0112]
<D3:グループ毎に設定>
 受付部122は、グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各グループの第1閾値δaまたは第2閾値δbを変更する操作を受け付ける。受付部122は、受け付けた閾値を、グループ毎にコンピュータ80のメモリ84またはストレージ85あるいは、記憶装置110に記憶する。
[0113]
 調整部124は、選択されたグループの第1閾値δaまたは第2閾値δbをユーザ操作に従い変更する。グループ化部104は、調整部124により変更された第1閾値δaおよび第2閾値δbを用いてグループ化を行う。
[0114]
 上記(D1)および上記(D2)の方法では、全てのグループで同じ閾値を用いてグループ化を行っていたが、(D3)の方法では、グループ毎に異なる閾値が設定可能である。ここでは、個別にユーザ操作により閾値を設定する方法について説明しているが、上記(D1)および上記(D2)の方法で設定された閾値を当該グループ毎に用いる構成とすることもできる。すなわち、調整部124は上記(D1)および上記(D2)の方法で設定された閾値を当該グループ毎にコンピュータ80のメモリ84またはストレージ85あるいは、記憶装置110に記憶し、グループ化部104はグループ毎に設定された閾値を用いてグループ化を行えばよい。
[0115]
 グループ化部104は、調整部124により調整された閾値を用いて、処理対象データ全体に対して再度グループ化処理を行ってもよい。
[0116]
 以上説明したように、本実施形態の情報処理装置100によれば、上記実施形態と同様な効果を奏するとともに、閾値を適切な値に調整できるので、グループ内のデータの精度を向上できる。また、必ずグループに属するとみなすための第1閾値δaおよびグループに属する可能性があるとみなすための第2閾値δbの2つの閾値を独立して調整できるので、グループ化の結果の質を向上させることができる。
[0117]
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 たとえば、上記実施形態では、第1閾値δaと第2閾値δbの2つの閾値を用いる例を説明したが、例えば、基準閾値δ0と、基準閾値δ0からの幅dであってもよい。基準閾値δ0は、上限、中央、下限のいずれかの値とすることができる。つまり、グループ内とグループ外の境界は、線ではなく所定の幅を有する帯状で示すことができる。
[0118]
 さらに、他の実施形態において、グループ化を行った後に新たにデータが追加された場合に、代表データ10を他のデータに替えるユーザ操作を受け付ける構成を有してもよい。例えば、処理対象のデータ群のツリー構造が変更になった場合、新たに設定されたリンク間の閾値に基づいて、代表データ10を選択し、再度グループ化を行ってもよい。
[0119]
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
[0120]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
 前記グループ化手段は、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理装置。
2. 1.に記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
 前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する調整手段と、をさらに備え、
 前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外する、情報処理装置。
3. 1.または2.に記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
 選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する調整手段と、をさらに備え、
 前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。
4. 1.から3.いずれか1つに記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける変更受付手段と、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する調整手段と、をさらに備え、
 前記グループ化手段は、前記調整手段により変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理装置。
5. 1.から4.いずれか1つに記載の情報処理装置において、
 前記グループ化手段は、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、情報処理装置。
6. 1.から5.いずれか1つに記載の情報処理装置において、
 前記グループ化手段は、
  グループ化によっていずれのグループにも属さないデータを破棄する、情報処理装置。
7. 1.から6.いずれか1つに記載の情報処理装置において、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
 前記制御手段は、前記グループ化手段に、
  前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
  前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。
8. 1.から7.いずれか1つに記載の情報処理装置において、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。
[0121]
9. 情報処理装置が、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
 前記グループ化を行う際、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理方法。
10. 9.に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
 前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整し、
 前記操作により除外対象として受け付けたデータを前記グループから除外する、情報処理方法。
11. 9.または10.に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
 前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整し、
 前記操作により選択された複数のグループを一つのグループにまとめる、情報処理方法。
12. 9.から11.いずれか1つに記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付け、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更し、
 変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理方法。
13. 9.から12.いずれか1つに記載の情報処理方法において、
 前記情報処理装置が、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う、情報処理方法。
14. 9.から13.いずれか1つに記載の情報処理方法において、
 前記情報処理装置が、
  グループ化によっていずれのグループにも属さないデータを破棄する、情報処理方法。
15. 9.から14.いずれか1つに記載の情報処理方法において、
 前記情報処理装置が、さらに、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化を行い、
 前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行い、
 前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄する、情報処理方法。
16. 9.から15.いずれか1つに記載の情報処理方法において、
 前記情報処理装置が、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータを管理し、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記グループ化を行う際、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理方法。
[0122]
17. コンピュータに、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
 代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
 新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、を実行させるためのプログラム。
18. 17.に記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
 前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する手順、
 前記操作により除外対象として受け付けたデータを前記グループから除外する手順、をさらにコンピュータに実行させるためのプログラム。
19. 17.または18.に記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
 前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する手順、
 前記操作により選択された複数のグループを一つのグループにまとめる手順、をさらにコンピュータに実行させるためのプログラム。
20. 17.から19.いずれか1つに記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける手順、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する手順、
 変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
21. 17.から20.いずれか1つに記載のプログラムにおいて、
 複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
22. 17.から21.いずれか1つに記載のプログラムにおいて、
 グループ化によっていずれのグループにも属さないデータを破棄する手順、をさらにコンピュータに実行させるためのプログラム。
23. 17.から22.いずれか1つに記載のプログラムにおいて、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順、
  前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせるようにグループ化を行う手順、
  前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、をさらにコンピュータに実行させるためのプログラム。
24. 17.から23.いずれか1つに記載のプログラムにおいて、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理する手順、をさらにコンピュータに実行させ、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする手順、をさらにコンピュータに実行させるためのプログラム。
[0123]
 この出願は、2017年7月7日に出願された日本出願特願2017-133677号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

請求の範囲

[請求項1]
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する入力手段と、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化するグループ化手段と、を備え、
 前記グループ化手段は、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理装置。
[請求項2]
 請求項1に記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける除外データ受付手段と、
 前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する調整手段と、をさらに備え、
 前記グループ化手段は、前記除外データ受付手段が受け付けたデータを前記グループから除外する、情報処理装置。
[請求項3]
 請求項1または2に記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける選択受付手段と、
 選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する調整手段と、をさらに備え、
 前記グループ化手段は、前記選択受付手段により受け付けた複数のグループを一つのグループにまとめる、情報処理装置。
[請求項4]
 請求項1から3いずれか1項に記載の情報処理装置において、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける変更受付手段と、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する調整手段と、をさらに備え、
 前記グループ化手段は、前記調整手段により変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理装置。
[請求項5]
 請求項1から4いずれか1項に記載の情報処理装置において、
 前記グループ化手段は、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含める、情報処理装置。
[請求項6]
 請求項1から5いずれか1項に記載の情報処理装置において、
 前記グループ化手段は、
  グループ化によっていずれのグループにも属さないデータを破棄する、情報処理装置。
[請求項7]
 請求項1から6いずれか1項に記載の情報処理装置において、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化手段に処理させる制御手段をさらに備え、
 前記制御手段は、前記グループ化手段に、
  前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせ、
  前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる、情報処理装置。
[請求項8]
 請求項1から7いずれか1項に記載の情報処理装置において、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理され、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記グループ化手段は、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理装置。
[請求項9]
 情報処理装置が、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力し、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化し、
 前記グループ化を行う際、
  代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含め、
  新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する、情報処理方法。
[請求項10]
 請求項9に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付け、
 前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整し、
 前記操作により除外対象として受け付けたデータを前記グループから除外する、情報処理方法。
[請求項11]
 請求項9または10に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付け、
 前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整し、
 前記操作により選択された複数のグループを一つのグループにまとめる、情報処理方法。
[請求項12]
 請求項9から11いずれか1項に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付け、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更し、
 変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う、情報処理方法。
[請求項13]
 請求項9から12いずれか1項に記載の情報処理方法において、
 前記情報処理装置が、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う、情報処理方法。
[請求項14]
 請求項9から13いずれか1項に記載の情報処理方法において、
 前記情報処理装置が、
  グループ化によっていずれのグループにも属さないデータを破棄する、情報処理方法。
[請求項15]
 請求項9から14いずれか1項に記載の情報処理方法において、
 前記情報処理装置が、さらに、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化を行い、
 前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行い、
 前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄する、情報処理方法。
[請求項16]
 請求項9から15いずれか1項に記載の情報処理方法において、
 前記情報処理装置が、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータを管理し、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記グループ化を行う際、前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする、情報処理方法。
[請求項17]
 コンピュータに、
 複数のデータの各々の特徴量の類似度に関する閾値であって、同じグループに属するとみなすための第1の閾値と、前記第1の閾値より低い値を示す第2の閾値とを入力する手順、
 前記類似度、前記第1の閾値、および前記第2の閾値を用いて前記データをグループ化する手順、
 代表データとの前記類似度が前記第1の閾値より高いデータを同じグループに含める手順、
 新たな代表データを、既に存在している前記代表データとの前記類似度が前記第2の閾値より低いデータの中から選択する手順、を実行させるためのプログラム。
[請求項18]
 請求項17に記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、あるグループから少なくとも一つのデータを除外する操作を受け付ける手順、
 前記操作により前記除外されるデータと、当該データが属していた第1グループの前記代表データとの前記類似度に基づいて、前記第1の閾値を調整する手順、
 前記操作により除外対象として受け付けたデータを前記グループから除外する手順、をさらにコンピュータに実行させるためのプログラム。
[請求項19]
 請求項17または18に記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、同じグループに属するとみなす複数の前記グループを選択する操作を受け付ける手順、
 前記操作により選択された複数の前記グループの前記代表データ同士の前記類似度に基づいて、前記第2の閾値を調整する手順、
 前記操作により選択された複数のグループを一つのグループにまとめる手順、をさらにコンピュータに実行させるためのプログラム。
[請求項20]
 請求項17から19いずれか1項に記載のプログラムにおいて、
 前記グループ化された結果を出力するとともに、変更対象のグループを選択する操作と、選択された各前記グループの前記第1の閾値または前記第2の閾値を変更する操作を受け付ける手順、
 前記操作に基づいて、選択された前記グループの前記第1の閾値または前記第2の閾値を変更する手順、
 変更された前記第1の閾値および前記第2の閾値を用いてグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
[請求項21]
 請求項17から20いずれか1項に記載のプログラムにおいて、
 複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるようにグループ化を行う手順、をさらにコンピュータに実行させるためのプログラム。
[請求項22]
 請求項17から21いずれか1項に記載のプログラムにおいて、
 グループ化によっていずれのグループにも属さないデータを破棄する手順、をさらにコンピュータに実行させるためのプログラム。
[請求項23]
 請求項17から22いずれか1項に記載のプログラムにおいて、
 いずれの前記グループにも属さないデータの全データに対する割合に応じて、
  複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めるか、
  前記いずれのグループにも属さないデータを破棄するか、を決定し、前記グループ化する手順、
  前記割合が所定値以上の場合、複数の前記グループのうち一のグループの代表データとの前記類似度が前記第1の閾値と前記第2の閾値の間であり、かつ、当該一のグループ以外の他のグループの代表データとの前記類似度は前記第2の閾値より低いデータは、前記一のグループに含めさせるようにグループ化を行う手順、
  前記割合が前記所定値未満の場合、前記いずれのグループにも属さないデータを破棄させる手順、をさらにコンピュータに実行させるためのプログラム。
[請求項24]
 請求項17から23いずれか1項に記載のプログラムにおいて、
 複数の前記データ間の類似度に基づく階層ツリー構造で前記複数のデータが管理する手順、をさらにコンピュータに実行させ、
 前記階層ツリー構造において、ある上位ノードとその下位のサブツリーのリンクにはそれぞれ類似度の閾値が設定されており、前記類似度が、設定されている閾値より高いデータがその上位ノードの下位に位置し、
 前記階層ツリー構造の上位から下位に向かってたどり、設定された閾値が前記第1の閾値より高いリンクを有するノードのデータを前記代表データとする手順、をさらにコンピュータに実行させるためのプログラム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]