Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018159558) DATA GENERATION METHOD, DATA GENERATION DEVICE, DATA GENERATION PROGRAM
Document

明 細 書

発明の名称 データ生成方法、データ生成装置及びデータ生成プログラム

技術分野

0001  

背景技術

0002   0003   0004  

先行技術文献

非特許文献

0005  

発明の概要

発明が解決しようとする課題

0006  

課題を解決するための手段

0007  

発明の効果

0008  

図面の簡単な説明

0009  

発明を実施するための形態

0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166  

符号の説明

0167  

請求の範囲

1   2   3   4   5   6   7   8   9  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   40  

明 細 書

発明の名称 : データ生成方法、データ生成装置及びデータ生成プログラム

技術分野

[0001]
 本発明は、時系列データの処理技術に関する。

背景技術

[0002]
 時系列データに対する機械学習が行われている。例えば、人に装着されたウエアラブルセンサにより取得された時系列データを学習データとし、かつ、時系列データが取得された時点における人の状態を教師データとして、学習モデルに対する機械学習をコンピュータに実行させる。そして、機械学習された学習モデルを利用し、新たな時系列データが取得された時点における人の状態をコンピュータに推定させる。
[0003]
 時系列データに対する機械学習に関して、或る文献は以下のような技術を開示する。具体的には、図形化手法に基づき時系列データが図形化され、図形化の結果に対して、位相幾何学に基づくデータ分析手法の一つである位相的データ解析(Topological Data Analysis)が実行される。そして、位相的データ解析の結果に対して、DNN(Deep Neural Network)を用いた機械学習が実行される。
[0004]
 但し、上記文献に記載の技術は、単一の時系列データに対する機械学習の技術であるので、複数の時系列データに対する機械学習に適した技術ではない。

先行技術文献

非特許文献

[0005]
非特許文献1 : 富士通株式会社、“人々の安心安全な暮らしを支える新しいAI「時系列ディープラーニング」”、[online]、平成28年3月10日、[平成28年12月1日検索]、インターネット<URL:http://journal.jp.fujitsu.com/2016/03/10/01/>

発明の概要

発明が解決しようとする課題

[0006]
 本発明の目的は、1つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成することである。

課題を解決するための手段

[0007]
 一態様に係るデータ生成方法は、複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。

発明の効果

[0008]
 1つの側面では、複数の時系列データに対する機械学習に適した特徴情報を生成できる。

図面の簡単な説明

[0009]
[図1] 図1は、第1の実施の形態の情報処理装置の機能ブロック図である。
[図2] 図2は、第1の実施の形態のメイン処理フローを示す図である。
[図3] 図3は、時系列データの正規化について説明するための図である。
[図4] 図4は、拡張アトラクタの生成について説明するための図である。
[図5] 図5は、αの値の一例を示す図である。
[図6] 図6は、拡張ベクトル生成処理の処理フローを示す図である。
[図7] 図7は、バーコード図の一例を示す図である。
[図8] 図8は、バーコードデータの一例を示す図である。
[図9] 図9は、バーコードデータとベッチシリーズとの関係について説明するための図である。
[図10] 図10は、パーシステント区間の一例を示す図である。
[図11] 図11は、特徴画像について説明するための図である。
[図12] 図12は、第1の実施の形態のメイン処理フローを示す図である。
[図13] 図13は、第1の実施の形態におけるCNNの一例を示す模式図である。
[図14] 図14は、ラベルと重み行列との関係を説明するための図である。
[図15] 図15は、統計量の算出について説明するための図である。
[図16] 図16は、関連度のベクトルの生成について説明するための図である。
[図17] 図17は、第1の実施の形態のメイン処理フローを示す図である。
[図18] 図18は、第1の関係データについてのパターンを示す図である。
[図19] 図19は、第2の関係データについてのパターンを示す図である。
[図20] 図20は、第3の関係データについてのパターン及び第4の関係データについてのパターンを示す図である。
[図21] 図21は、時系列データの具体例を示す図である。
[図22] 図22は、時系列データの具体例を示す図である。
[図23] 図23は、時系列データの具体例を示す図である。
[図24] 図24は、時系列データの具体例を示す図である。
[図25] 図25は、時系列データの具体例を示す図である。
[図26] 図26は、時系列データの具体例を示す図である。
[図27] 図27は、時系列データの具体例を示す図である。
[図28] 図28は、時系列データの具体例を示す図である。
[図29] 図29は、関連度と寄与パラメータとの関係を示す図である。
[図30] 図30は、第2の実施の形態におけるメイン処理フローを示す図である。
[図31] 図31は、第2の実施の形態における学習モデルの一例を示す図である。
[図32] 図32は、第3の実施の形態の情報処理装置の機能ブロック図である。
[図33] 図33は、第3の実施の形態におけるメイン処理フローを示す図である。
[図34] 図34は、入力ベクトルの一例を示す図である。
[図35] 図35は、第3の実施の形態におけるメイン処理フローを示す図である。
[図36] 図36は、第3の実施の形態におけるメイン処理フローを示す図である。
[図37] 図37は、第4の実施の形態の情報処理装置の機能ブロック図である。
[図38] 図38は、第4の実施の形態におけるメイン処理フローを示す図である。
[図39] 図39は、第4の実施の形態における関連度の算出について説明するための図である。
[図40] 図40は、コンピュータの機能ブロック図である。

発明を実施するための形態

[0010]
[実施の形態1]
 図1は、第1の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、画像データ格納部105と、機械学習部107と、学習データ格納部109と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
[0011]
 第1生成部103、機械学習部107、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU(Central Processing Unit)2503により実行されることで実現される。時系列データ格納部101、画像データ格納部105、学習データ格納部109、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD(Hard Disk Drive)2505又はメモリ2501に設けられる。
[0012]
 第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果を画像データ格納部105に格納する。機械学習部107は、画像データ格納部105に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部109に格納する。第2生成部111は、学習データ格納部109に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
[0013]
 時系列データ格納部101に格納されているデータは、例えば、生体データ(心拍数、脳波、脈拍或いは体温などの時系列データ)、ウエアラブルセンサのデータ(ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ)、金融データ(金利、物価、国際収支或いは株価などの時系列データ)、自然環境のデータ(気温、湿度或いは二酸化炭素濃度などの時系列データ)、又は社会データ(労働統計或いは人口統計などのデータ)等である。但し、時系列データは、少なくとも以下のルールに従って変化するデータであるとする。
[0014]
[数1]


[0015]
 例えば、不規則な時系列データ又は手書き文字の軌跡などの人為的な動きに関するデータは、本実施の形態の対象外であるとする。また、時系列データ格納部101には、複数の時系列データを含むデータセットが複数格納されているとする。
[0016]
 図2は、第1の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。
[0017]
 第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図2:ステップS1)。
[0018]
 第1生成部103は、ステップS1の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS3)。
[0019]
 複数の時系列データが異なる種類の時系列データである場合には軸のスケールが異なるので、時系列データの生の値をそのまま利用することは問題である。例えば図3に示すように、時系列データt1の値の変動が時系列データt2の値の変動より大きい場合であっても、分類に与える影響に関しても時系列データt1の方が大きいとは限らないので、軸のスケールが異なっていると誤った学習が行われる可能性がある。そこで、ステップS3の処理により軸のスケールを一致させることで、この問題を解消することができる。
[0020]
 第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS7)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。
[0021]
 例えば、時系列データの数が2つである場合には以下のような拡張アトラクタが生成される。
[0022]
[数2]


[0023]
 αは寄与パラメータである。x i(1≦i≦(k+2))は第1の時系列データの値であり、y j(1≦j≦(k+2))は第2の時系列データの値である。
[0024]
 図4は、拡張アトラクタの生成について説明するための図である。拡張アトラクタの生成はターケンスの埋め込み定理に基づく。第1の時系列データから取り出されたN個(Nは埋め込み次元である。式(2)の例ではN=3)の値に(1-α)が乗じられ、第2の時系列データから取り出されたN個の値にαが乗じられ、それらの値は1つの点の座標の成分になる。式(2)の例ではτ=1であるため1つおきに要素が取り出されている。但し、Nの値およびτの値は式(2)の例には限られない。
[0025]
 寄与パラメータαは、例えば、0≦α≦1を満たす実数であり、時系列データの値の大きさを調整するパラメータである。但し、αの範囲はこのような範囲でなくてもよい。本実施の形態においては、例えば図5に示すように、一定の間隔で設定された複数の値が使用される。
[0026]
 そして、第1生成部103は、ステップS7において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS9)。拡張ベクトル生成処理については、図6乃至図10を用いて説明する。
[0027]
 第1生成部103は、寄与パラメータαの値のうち未処理の値を1つ特定する(図6:ステップS41)。
[0028]
 第1生成部103は、ステップS41において特定した値についての拡張アトラクタを、メモリ2501から読み出す(ステップS43)。
[0029]
 第1生成部103は、パーシステントホモロジ処理によって、拡張アトラクタからバーコードデータを穴の次元(以下、穴次元と呼ぶ)毎に生成する(ステップS45)。
[0030]
 「ホモロジ」とは、対象の特徴をm(m≧0)次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、0次元の穴は連結成分であり、1次元の穴は穴(トンネル)であり、2次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。
[0031]
 「パーシステントホモロジ」とは、対象(ここでは、拡張アトラクタ)におけるm次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻(発生時の球の半径で表される)と消滅した時刻(消滅時の球の半径で表される)とが特定される。
[0032]
 穴の発生半径と消滅半径とを使用することで、例えば図7に示すようなバーコード図を生成することができる。図7において、横軸は半径を表し、各線分は1つの穴に対応する。線分の左端に対応する半径は穴の発生半径であり、線分の右端に対応する半径は穴の消滅半径である。線分はパーシステント区間と呼ばれる。このようなバーコード図から、例えば半径が0.18である時には2つの穴が存在するということがわかる。
[0033]
 図8に、バーコード図を生成するためのデータ(以下、バーコードデータと呼ぶ)の一例を示す。図8の例では、穴次元を表す数値と、穴の発生半径と、穴の消滅半径とがバーコードデータに含まれる。ステップS45において、バーコードデータは穴次元毎に生成される。
[0034]
 以上のような処理を実行すれば、或る拡張アトラクタから生成されるバーコードデータと他の拡張アトラクタから生成されるバーコードデータとの類似関係は、拡張アトラクタ間の類似関係と等価である。よって、拡張アトラクタとバーコードデータとの関係は1対1の関係である。
[0035]
 すなわち、拡張アトラクタが同じであれば、生成されるバーコードデータは同じである。逆に、バーコードデータが同じであれば、拡張アトラクタも同じである。また、拡張アトラクタが類似している場合にはバーコードデータも類似するため、機械学習に必要な条件が満たされる。拡張アトラクタが異なる場合には、バーコードデータも異なる。
[0036]
 なお、パーシステントホモロジの詳細については、例えば「平岡裕章、『タンパク質構造とトポロジー パーシステントホモロジー群入門』、共立出版」を参照されたい。
[0037]
 図6の説明に戻り、第1生成部103は、長さが所定長未満であるパーシステント区間のデータを、ステップS45において生成されたバーコードデータから削除する(ステップS47)。なお、パーシステント区間の長さは、(消滅半径-発生半径)によって算出される。所定長は、例えば、0次元の穴が発生してから消滅するまでの時間をK等分した時間(以下、ブロックと呼ぶ)の長さである。但し、1ブロックの長さに限られるわけではなく、複数ブロックの長さを所定長としてもよい。
[0038]
 発生から消滅までの時間が短い元は、ノイズによって発生するものがほとんどである。長さが所定長未満であるパーシステント区間のデータを削除すれば、ノイズの影響を緩和することができるので、分類性能を向上させることができるようになる。但し、削除の対象は次元が1以上であるパーシステント区間のデータであるとする。
[0039]
 ノイズが発生した場合においては、僅かな時間だけ1次元以上の穴が発生することがある。ステップS47の処理を実行すれば、両ケースにおいて生成されるデータはほぼ同じになるので、ノイズの影響を取り除くことができるようになる。
[0040]
 なお、長さが所定長未満であるパーシステント区間のデータが削除されるので、削除後のバーコードデータ間の類似関係は、元のバーコードデータ間の類似関係と厳密には等価ではない。削除が行われない場合には、類似関係は等価である。
[0041]
 図6の説明に戻り、第1生成部103は、バーコードデータを統合し、統合されたバーコードデータから拡張ベクトルを生成する(ステップS48)。拡張ベクトルはベッチ数の系列である。
[0042]
 上で述べたように、バーコードデータは穴次元毎に生成されるので、第1生成部103は、複数の穴次元のバーコードデータを統合することで1塊のバーコードデータを生成する。ベッチ数の系列は、パーシステントホモロジにおける球の半径(すなわち時間)とベッチ数との関係を示すデータである。図9を用いて、バーコードデータと生成されるベッチ数の系列との関係について説明する。上段のグラフはバーコードデータから生成されるグラフであり、横軸が半径を表す。下段のグラフはベッチ数の系列から生成されるグラフであり、縦軸はベッチ数を表し、横軸は時間を表す。上で述べたように、ベッチ数は穴の数を表しており、例えば上段のグラフにおいて破線に対応する半径の時には存在している穴の数が10であるので、下段のグラフにおいては破線に対応するベッチ数も10である。ベッチ数は、ブロック毎に計数される。なお、下段のグラフは疑似的な時系列データのグラフであるので、横軸の値自体が意味を持つわけではない。
[0043]
 基本的には、同じバーコードデータからは同じ系列が得られる。すなわち、元の点の集合が同じであれば同じ系列が得られる。但し、異なるバーコードから同じ系列が得られるケースが極めて稀に発生する。
[0044]
 例えば図10に示すようなバーコードデータを考える。このバーコードデータは1以上の次元の穴に関するデータであるとする。図10(a)のケースにおいては、パーシステント区間p1が時刻t1で開始し、かつ、時刻t2で終了し、パーシステント区間p2が時刻t2で開始し、かつ、時刻t3で終了する。一方、図10(b)のケースにおいては、パーシステント区間p4が時刻t1で開始し、かつ、時刻t3で終了する。両ケースにおけるパーシステント区間p3は全く同じであるとする。
[0045]
 このような場合、両ケースにおけるバーコードデータからは全く同じ系列が得られるので、両ケースを区別することができない。しかし、このような現象が発生する可能性は極めて低い。また、両ケースの点の集合は元々似ており、機械学習による分類に与える影響が極めて小さいので、上記のような現象が発生しても問題は無い。
[0046]
 従って、或るバーコードデータから生成されるベッチ数の系列と、別のバーコードデータから生成されるベッチ数の系列との類似関係は、上で述べた稀なケースが発生しなければ、バーコードデータ間の類似関係と等価である。以上から、データ間の距離の定義は変わるものの、バーコードデータから生成されるベッチ数の系列間の類似関係は、元の拡張アトラクタ間の類似関係とほぼ等価である。
[0047]
 図6の説明に戻り、第1生成部103は、αの値のうち未処理の値が有るか判定する(ステップS49)。未処理の値が有る場合(ステップS49:Yesルート)、ステップS41の処理に戻る。未処理の値が無い場合(ステップS49:Noルート)、処理は呼び出し元に戻る。
[0048]
 以上のように、パーシステントホモロジ処理を実行すれば、拡張アトラクタにおける点の位置関係を、バーコードデータに反映することができる。パーシステントホモロジ処理によって生成されたバーコードデータは、バーコードの本数が一定ではないため、そのままでは機械学習の入力とすることが難しい。そこで本実施の形態においては、バーコードデータをベッチ数の系列に変換することで、機械学習の入力とすることを可能にしている。
[0049]
 また、上で述べたように、本実施の形態によればノイズの影響を取り除くことができる。
[0050]
 図2の説明に戻り、第1生成部103は、ステップS9において生成された複数の拡張ベクトルを、αの値の大きさの順に列方向に結合することで特徴画像を生成し(ステップS11)、生成した特徴画像を画像データ格納部105に格納する。そして処理は端子Aを介して図12のステップS13に移行する。
[0051]
 図11は、特徴画像の一例を示す図である。正方形の図形はセルを表し、各セルには拡張ベクトルの要素であるベッチ数が格納される。1つの行が1つの拡張ベクトルに対応する。従って、図11の例においては、11個の拡張ベクトルが結合されており、特徴画像は11の行を有する行列に相当する。図11においては拡張ベクトルの要素の数が15であるが、数に限定は無い。
[0052]
 図12の説明に移行し、機械学習部107は、ステップS11において生成された特徴画像に対して、CNN(Convolutional Neural Network)を用いた機械学習を実行する(ステップS13)。ここでは、機械学習部107は、特徴画像とそのラベルとに基づく機械学習を実行する。機械学習部107は、機械学習の結果(例えば更新後の重み行列等)を学習データ格納部109に格納する。
[0053]
 なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS1乃至S13の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップS17以降の処理が実行される。
[0054]
 第2生成部111は、分類に関する複数のラベルのうち未処理のラベルを1つ特定する(ステップS17)。
[0055]
 図13は、第1の実施の形態におけるCNNの一例を示す模式図である。第1の実施の形態の機械学習においては、ステップS11において生成された特徴画像を入力として、畳み込み等の演算が実行される。最終特徴層と識別層との間は全結合である。図13の例においてはラベルの数は2であるが、ラベルの数が3以上であってもよい。
[0056]
 第2生成部111は、ステップS17において特定したラベルについて、最終特徴層と識別層との間の重み行列の要素を、学習データ格納部109から読み出す。そして、第2生成部111は、読み出した要素の絶対値を算出する(ステップS19)。
[0057]
 図14は、ラベルと重み行列との関係を説明するための図である。CNNにおいては、最終特徴層における各ユニットの各セルの値に重み行列W nにおける重みが乗じられるので、ステップS19においては各セルについての重みが読み出される。なお、重みの絶対値は活性度とも呼ばれる。
[0058]
 第2生成部111は、最終特徴層と識別層との間の各重み行列の各行について、ステップS19において算出した絶対値の統計量(例えば、平均値又は最大値)を算出する(ステップS21)。
[0059]
 図15は、活性度の統計量の算出について説明するための図である。最終特徴層の各ユニットの画像データは、ステップS11において生成された特徴画像を圧縮した画像データに相当するので、縦軸は寄与パラメータαに対応している。後述のように、本実施の形態においては寄与パラメータαと関連度との関係に基づき複数の時系列データの相関関係が特定されるので、図15に示すように、αの各値について統計量が算出される。従って、例えば最終特徴層のユニット数が2であれば、2つの重み行列それぞれの各行について、ステップS19において算出された絶対値の統計量が算出される。すなわち、最終特徴層の各ユニットについてベクトルが生成される。
[0060]
 第2生成部111は、最終特徴層のベクトルについて、ユニット間で要素の値の統計量(例えば、平均、総和又は最大値)を行毎に算出する。そして、第2生成部111は、算出した統計量を要素とするベクトルを生成する(ステップS23)。第1の実施の形態においては、ステップS23において生成されたベクトルの各要素の値を関連度として取り扱う。関連度とは、対象の分類に対してセルが及ぼす影響の度合いを表す値である。
[0061]
 図16は、関連度のベクトルの生成について説明するための図である。ステップS21の処理の結果として生成されたベクトルの要素数(すなわち行数)はユニット間で同一である。従って、ステップS23においては、値の統計量が行毎に関連度として算出され、関連度のベクトルが1つ生成される。
[0062]
 第2生成部111は、ステップS23において生成した関連度のベクトルの要素の最大値、最小値、並びに最大値および最小値の位置(例えば要素番号)を特定する(ステップS25)。第2生成部111は、関連度のベクトルと、特定した最大値、最小値、並びに最大値および最小値の位置とを関連度格納部113に格納する。処理は端子Bを介して図17のステップS27に移行する。
[0063]
 図17の説明に移行し、判定部115は、関連度格納部113に格納されている情報を読み出す。そして、判定部115は、最小値に対する最大値の割合が所定値以下であるか判定する(図17:ステップS27)。所定値とは、例えば1.2である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。
[0064]
 最小値に対する最大値の割合が所定値以下である場合(ステップS27:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが独立して影響することを示す第1の関係データを生成し(ステップS28)、第1の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
[0065]
 図18は、第1の関係データについてのパターンを示す図である。図18において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値に対する最大値の割合が所定値以下である場合には、αの値が比較的小さいとき(すなわち、一方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合)と、αの値が比較的大きいとき(すなわち、他方の時系列データの値に乗じられる寄与パラメータの値が比較的大きい場合)とで、関連度が同程度になる。このような場合には、対象のラベルについての分類に両方の時系列データが影響を及ぼしていると考えられる。そして、αの値の大きさが中程度であるとき(仮にαの範囲が0≦α≦1であれば、αが約0.5であるとき)の関連度も両端の関連度と同程度であるので、時系列データの間に時間相関が無いと考えられる。
[0066]
 一方、最小値に対する最大値の割合が所定値以下ではない場合(ステップS27:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値および最小値が関連度のベクトルの端に位置するか判定する(ステップS29)。
[0067]
 最大値および最小値が関連度のベクトルの端に位置する場合(ステップS29:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に最大値側の時系列データが影響することを示す第2の関係データを生成し(ステップS30)、第2の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
[0068]
 図19(a)及び図19(b)は、第2の関係データについてのパターンを示す図である。図19(a)及び図19(b)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値および最小値が関連度のベクトルの端に位置する場合、関連度と寄与パラメータαとの関係はおおよそ図19(a)又は図19(b)に示すような関係である。このような場合には、対象のラベルについての分類には、関連度の最大値側の時系列データが影響すると考えられる。そして、時系列データ間の時間相関は無いと考えられる。   
[0069]
 一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合(ステップS29:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値が関連度のベクトルの中央に位置するか判定する(ステップS31)。
[0070]
 最大値が関連度のベクトルの中央に位置する場合(ステップS31:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第3の関係データを生成し(ステップS32)、第3の関係データを判定結果格納部117に格納する。そして処理はステップS37に移行する。
[0071]
 図20(a)は、第3の関係データについてのパターンを示す図である。図20(a)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最大値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的小さくなると考えられ、その場合には対象のラベルについての分類に対して単独の時系列データが影響することはない。そして、最大値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が有ると考えられる。
[0072]
 一方、最大値が関連度のベクトルの中央に位置しない場合(ステップS31:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最小値が関連度のベクトルの中央に位置するか判定する(ステップS33)。
[0073]
 最小値が関連度のベクトルの中央に位置する場合(ステップS33:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、ステップS17において特定されたラベルについての分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第4の関係データを生成し(ステップS35)、第4の関係データを判定結果格納部117に格納する。一方、最小値が関連度のベクトルの中央に位置しない場合(ステップS33:Noルート)、処理はステップS37に移行する。
[0074]
 図20(b)は、第4の関係データについてのパターンを示す図である。図20(b)において、縦軸は関連度を表し、横軸は寄与パラメータαを表す。最小値が関連度のベクトルの中央に位置する場合、両端の関連度の値が比較的大きくなると考えられ、その場合には対象のラベルについての分類に対して時系列データ単独で影響する。そして、最小値が関連度のベクトルの中央に位置することから、時系列データ間に時間相関が無いと考えられる。
[0075]
 第2生成部111は、未処理のラベルが有るか判定する(ステップS37)。未処理のラベルが有る場合(ステップS37:Yesルート)、処理は端子Cを介して図12のステップS17に戻る。一方、未処理のラベルが無い場合(ステップS37:Noルート)、処理は終了する。なお、判定結果格納部117に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。
[0076]
 以上のように、本実施の形態によれば、複数の時系列データそれぞれの特徴が反映された特徴画像が生成されるようになる。複数の時系列データそのものを機械学習の入力とすることは難しいが、本実施の形態の方法により生成された特徴画像は機械学習に適している。また、特徴画像の生成過程においてノイズが取り除かれるため、機械学習の精度を高めることが可能である。
[0077]
 以下では、時系列データ間の相関関係の特定について、図21乃至図29に示した具体例を用いて説明を追加する。
[0078]
 図21乃至図28の上段には1つ目の時系列データ(図21乃至図28における「第1軸」の時系列データ)が示されており、図21乃至図28の下段には2つ目の時系列データ(図21乃至図28における「第2軸」の時系列データ)が示されている。線種が同じである時系列データは同じデータセットに含まれる。例えば、図21の第1軸の太線の時系列データは、図21の第2軸の太線の時系列データと同じデータセットに含まれる。
[0079]
 まず、図21、図22及び図29(a)を用いて、第1の例について説明する。第1の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図21に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図22に示した組み合わせである場合にラベル2が付与される。
[0080]
 より具体的には、図21に示すように、第1軸の全時系列データの振幅は約1であり、第2軸の時系列データの振幅はランダムに与えられている。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0081]
 また、図22に示すように、第1軸の全時系列データの振幅は約0.5であり、第2軸の時系列データの振幅はランダムに与えられている。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0082]
 図21及び図22に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(a)に示す。図29(a)に示した例においては、最小値(0.075)に対する最大値(0.138)の割合が所定値(ここでは1.2)より大きく、αの値が最も小さい場合に関連度の最大値が出現し、かつ、αの値が最も大きい場合に関連度の最小値が出現している。このパターンは図19(a)に示したパターンに相当するので、最大値側の時系列データである第1軸の時系列データのみが分類に影響を及ぼす(すなわち、第2軸の時系列データは分類に無関係)ことがわかる。   
[0083]
 図23、図24及び図29(b)を用いて、第2の例について説明する。第2の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図23に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図24に示した組み合わせである場合にラベル2が付与される。
[0084]
 より具体的には、図23に示すように、各データセットについて、第1軸の時系列データの振幅は約1であり、かつ、第2軸の時系列データの振幅は約0.5である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0085]
 また、図24に示すように、各データセットにおいて、第1軸の時系列データの振幅は約0.5であり、かつ、第2軸の時系列データの振幅は約1である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0086]
 図23及び図24に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(b)に示す。図29(b)に示した例においては、関連度の最大値は0.105であり、関連度の最小値は0.091である。最小値に対する最大値の割合が所定値(ここでは1.2)以下であるので、このパターンは図18に示したパターンに相当する。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼすことがわかる。この場合、少なくともいずれかの時系列データによって分類をすることが可能である。
[0087]
 図25、図26及び図29(c)を用いて、第3の例について説明する。第3の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図25に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図26に示した組み合わせである場合にラベル2が付与される。
[0088]
 より具体的には、図25に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であるか、又は、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約0.5である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0089]
 また、図26に示すように、各データセットについて、第1軸の時系列データの振幅が約1であり、かつ、第2軸の時系列データの振幅が約0.5であるか、又は、第1軸の時系列データの振幅が約0.5であり、かつ、第2軸の時系列データの振幅が約1である。第1軸の時系列データの位相及び第2軸の時系列データの位相はランダムに与えられている。
[0090]
 図25及び図26に示した複数のデータセットについて本実施の形態の処理を実行することで算出された関連度のベクトルを図29(c)に示す。図29(c)に示した例においては、関連度の最大値は0.074であり、関連度の最小値は0.055である。最小値に対する最大値の割合が所定値(ここでは1.2)より大きく、かつ、最小値が中央のセルに近いセルに位置するので、このパターンは図20(b)に示したパターンに相当する可能性がある。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼす(すなわち、両方の時系列データが必要である)が両者は時間相関を有しないと考えられる。
[0091]
 図27、図28及び図29(d)を用いて、第4の例について説明する。第4の例においては、第1軸の時系列データと第2軸の時系列データとの組合せが図27に示した組み合わせである場合にラベル1が付与され、第1軸の時系列データと第2軸の時系列データとの組合せが図28に示した組み合わせである場合にラベル2が付与される。
[0092]
 より具体的には、図27に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であり、第1軸の時系列データの位相と第2軸の時系列データの位相とが同じである。
[0093]
 また、図28に示すように、各データセットについて、第1軸の時系列データの振幅と第2軸の時系列データの振幅との両方が約1であり、第2軸の時系列データの位相は第1軸の時系列データの位相と半位相分ずれている。
[0094]
 図27及び図28に示した複数のデータセットについて本実施の形態の処理を実行することで算出した関連度のベクトルを図29(d)に示す。図29(d)に示した例においては、関連度の最大値は0.320であり、関連度の最小値は0.118である。最小値に対する最大値の割合が所定値(ここでは1.2)より大きく、かつ、最大値が中央のセ ルに位置するので、このパターンは図20(a)に示したパターンに相当する。つまり、第1軸の時系列データおよび第2軸の時系列データの両方が分類に影響を及ぼし(すなわち、両方の時系列データが必要であり)、かつ、両者は時間相関を有することがわかる。
[0095]
 以上のように、本実施の形態によれば、対象のラベルについて複数の時系列データの相関関係を特定することができるようになる。例えば、2つの時系列データのうち一方のみが分類に影響することが判明した場合、他方の時系列データを値の取得および解析の対象から外すことができるので、分類への悪影響を回避できるとともに、データの取得および解析に要する時間およびコストを短縮することができる。また、例えば、2つの時系列データのうちいずれか一方の時系列データのみで分類が可能である場合、データの取得の容易さ等の観点から時系列データを選択することができるので、データの取得にかかる時間及びコストを減らすことができるようになる。また、解析に要する時間およびコストも削減することができるようになる。また、例えば、2つの時系列データの両方が必要であることが判明した場合、時間軸を揃えて2つの時系列データを取得するべきであるか否かを事前に把握できるので、センサ等の設定を誤ってしまうことを防ぐことができる。
[0096]
 また、第1の実施の形態においてはCNNを用いた機械学習が利用され、特徴画像におけるセル間の関係が考慮されるため、以下で説明する他の実施形態と比較して学習の精度を高めることができるようになる。
[0097]
[実施の形態2]
 第1の実施の形態においては特徴画像に対してCNNを用いた機械学習が実行されるが、機械学習の方法はCNNには限られない。以下では、図30及び図31を用いて、特徴画像を直接学習させる方法について説明する。なお、第2の実施の形態の処理において第1の実施の形態の処理と異なる部分は端子A以降の処理であるので、端子A以降の処理のみ以下で説明する。第2の実施の形態における機械学習を、単層の学習モデルを用いた機械学習と呼ぶ。
[0098]
 まず、機械学習部107は、ステップS11において生成された特徴画像に対して、単層の学習モデルを用いた機械学習を実行する(図30:ステップS51)。機械学習部107は、機械学習の結果(例えば更新後の重み行列等)を学習データ格納部109に格納する。
[0099]
 図31は、第2の実施の形態における学習モデルの一例を示す図である。第2の実施の形態においては、特徴画像における各セルの値そのものに対する機械学習が実行される。各セルの値には識別層への重みが乗じられる。
[0100]
 ステップS53以降の処理は、複数のデータセットの各々についてステップS51の処理が実行され、かつ、機械学習が十分に進んだことが確認された後に実行される。
[0101]
 第2生成部111は、分類に関する複数のラベルのうち未処理のラベルを1つ特定する(ステップS53)。
[0102]
 第2生成部111は、ステップS53において特定したラベルについて、特徴画像における各セルについての重みを学習データ格納部109から抽出する(ステップS55)。   
[0103]
 第2生成部111は、特徴画像における各セルについて、分散を算出する(ステップS57)。複数のデータセットについてステップS11までの処理が実行されれば複数の特徴画像が生成されるので、各セルについて、複数の値から分散が算出される。
[0104]
 第2生成部111は、特徴画像における各セルについて、算出した分散と抽出した重みの絶対値とに基づき関連度を算出する(ステップS59)。例えば、セル(x,y)の分散をv x,yとし、かつ、重みの絶対値をw x,yとすると、第2生成部111は、セル(x,y)の関連度をv x,y*w x,yとして算出する。
[0105]
 第2生成部111は、各行について関連度の統計量(例えば、平均又は最大値)を算出することで関連度のベクトルを生成し(ステップS61)、生成したベクトルを関連度格納部113に格納する。そして処理は端子Bを介して図17のステップS27に移行する。
[0106]
 以上のような処理を実行すれば、例えばCNNを実行することが適切ではない場合においても、複数の時系列データの相関を特定することができるようになる。
[0107]
[実施の形態3]
 第3の実施の形態においては拡張ベクトルから生成されたデータに対してSVM(Support Vector Machine)を用いた機械学習が実行される。
[0108]
 図32は、第3の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、ベクトルデータ格納部119と、機械学習部107と、学習データ格納部109と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
[0109]
 第1生成部103、機械学習部107、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU2503により実行されることで実現される。時系列データ格納部101、ベクトルデータ格納部119、学習データ格納部109、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD2505又はメモリ2501に設けられる。
[0110]
 第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果をベクトルデータ格納部119に格納する。機械学習部107は、ベクトルデータ格納部119に格納されているデータに基づき処理を実行し、処理結果を学習データ格納部109に格納する。第2生成部111は、学習データ格納部109に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
[0111]
 図33は、第3の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。
[0112]
 第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図33:ステップS71)。
[0113]
 第1生成部103は、ステップS71の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS73)。
[0114]
 第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS77)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。拡張アトラクタの生成は、第1の実施の形態と同様である。
[0115]
 第1生成部103は、ステップS77において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS79)。拡張ベクトル生成処理については、図6乃至図10を用いて説明したとおりであるので、ここでは説明を省略する。
[0116]
 第1生成部103は、ステップS79において生成された複数の拡張ベクトルを、αの値の大きさの順に行方向に結合することで入力ベクトルを生成し(ステップS81)、生成した入力ベクトルをベクトルデータ格納部119に格納する。そして処理は端子Dを介して図35のステップS83に移行する。
[0117]
 図34は、入力ベクトルの一例を示す図である。正方形の図形はベクトルの要素を表し、各要素にはベッチ数が格納される。図34の例では7つの要素を有するベクトルが1つの拡張ベクトルに対応する。このような拡張ベクトルが連結されることで、1つの入力ベクトルが生成される。
[0118]
 図35の説明に移行し、機械学習部107は、ステップS81において生成された入力ベクトルに対して、SVMを用いた機械学習を実行する(ステップS83)。機械学習部107は、機械学習の結果を学習データ格納部109に格納する。
[0119]
 なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS71乃至S83の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行される。そして、機械学習が十分に進んだことが確認されたうえで、ステップS85以降の処理が実行される。
[0120]
 第2生成部111は、入力ベクトルの各要素について、値の平均値および分散を算出する(ステップS85)。複数のデータセットについてステップS83までの処理が実行されれば複数の入力ベクトルが生成されるので、各要素について、値の平均および分散が算出される。
[0121]
 第2生成部111は、ステップS85において算出した平均値を各要素の値とするベクトルを生成する。そして、第2生成部111は、SVMを用いた機械学習の結果を用いて、生成したベクトルの分類スコアを基準分類スコアとして算出する(ステップS87)。   
[0122]
 第2生成部111は、ステップS87において生成したベクトルの各要素について、当該要素のみ値を(平均+分散)又は(平均-分散)に変更した場合の分類スコアを、SVMを用いた機械学習の結果を用いて算出する(ステップS89)。
[0123]
 第2生成部111は、各要素の関連度を、ステップS89において算出した分類スコアと基準分類スコアとの差として算出し(ステップS91)、関連度格納部113に格納する。そして処理は端子Eを介して図36のステップS93に移行する。
[0124]
 図36の説明に移行し、判定部115は、関連度格納部113に格納されている情報を読み出す。そして、判定部115は、最小値に対する最大値の割合が所定値以下であるか判定する(図36:ステップS93)。所定値とは、例えば1.2である。最小値に対する最大値の割合が所定値以下であることは、最大値と最小値との差が比較的小さいことを意味する。
[0125]
 最小値に対する最大値の割合が所定値以下である場合(ステップS93:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、両方の時系列データが分類に独立して影響することを示す第1の関係データを生成し(ステップS95)、第1の関係データを判定結果格納部117に格納する。そして処理は終了する。
[0126]
 一方、最小値に対する最大値の割合が所定値以下ではない場合(ステップS93:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値および最小値が関連度のベクトルの端に位置するか判定する(ステップS97)。
[0127]
 最大値および最小値が関連度のベクトルの端に位置する場合(ステップS97:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値側の時系列データが分類に影響することを示す第2の関係データを生成し(ステップS99)、第2の関係データを判定結果格納部117に格納する。そして処理は終了する。   
[0128]
 一方、最大値および最小値の少なくともいずれかが関連度のベクトルの端に位置しない場合(ステップS97:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最大値が関連度のベクトルの中央に位置するか判定する(ステップS101)。
[0129]
 最大値が関連度のベクトルの中央に位置する場合(ステップS101:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係があることを示す第3の関係データを生成し(ステップS103)、第3の関係データを判定結果格納部117に格納する。そして処理は終了する。
[0130]
 一方、最大値が関連度のベクトルの中央に位置しない場合(ステップS101:Noルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、最小値が関連度のベクトルの中央に位置するか判定する(ステップS105)。
[0131]
 最小値が関連度のベクトルの中央に位置する場合(ステップS105:Yesルート)、判定部115は、以下の処理を実行する。具体的には、判定部115は、分類に両方の時系列データが影響し、かつ、時系列データ間に相関関係が無いことを示す第4の関係データを生成し(ステップS107)、第4の関係データを判定結果格納部117に格納する。そして処理は終了する。また、最小値が関連度のベクトルの中央に位置しない場合(ステップS105:Noルート)、処理は終了する。なお、判定結果格納部117に格納された関係データは表示装置に表示され又は他の端末等に送信され、ユーザにより確認される。
[0132]
 以上のように、SVMを用いた機械学習により、汎化性能を高めつつ、複数の時系列データの相関関係を特定することができるようになる。なお、説明を簡単にするためラベルとの関係が述べられていないが、第3の実施の形態においても、各ラベルについて処理が実行されてもよい。
[0133]
[実施の形態4]
 第1乃至第3の実施の形態においては機械学習の結果に基づき関連度が算出されるが、第4の実施の形態においては、機械学習以外の方法で関連度が算出される。
[0134]
 図37は、第4の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、時系列データ格納部101と、第1生成部103と、第1データ格納部121と、データ処理部123と、第2データ格納部125と、第2生成部111と、関連度格納部113と、判定部115と、判定結果格納部117とを含む。
[0135]
 第1生成部103、データ処理部123、第2生成部111および判定部115は、例えば、図40に示したメモリ2501にロードされたプログラムが図40に示したCPU2503により実行されることで実現される。時系列データ格納部101、第1データ格納部121、第2データ格納部125、関連度格納部113および判定結果格納部117は、例えば、図40に示したHDD2505又はメモリ2501に設けられる。
[0136]
 第1生成部103は、時系列データ格納部101に格納されているデータに基づき処理を実行し、処理結果を第1データ格納部121に格納する。データ処理部123は、第1データ格納部121に格納されているデータに基づき処理を実行し、処理結果を第2データ格納部125に格納する。第2生成部111は、第2データ格納部125に格納されているデータに基づき処理を実行し、処理結果を関連度格納部113に格納する。判定部115は、関連度格納部113に格納されているデータに基づき処理を実行し、処理結果を判定結果格納部117に格納する。
[0137]
 図38は、第4の実施の形態の情報処理装置1が実行する処理の処理フローを示す図である。ここでは、ラベルが2つであることを前提として処理を説明する。
[0138]
 第1生成部103は、時系列データ格納部101に格納されている複数のデータセットのうち1つのデータセットを特定する。そして、第1生成部103は、特定したデータセットに含まれる複数の時系列データの各々を、値の平均が0になるように平行移動する(図38:ステップS111)。
[0139]
 第1生成部103は、ステップS111の処理が実行された全時系列データの振幅の幅が同じになるように正規化を実行する(ステップS113)。
[0140]
 第1生成部103は、αの各値について、正規化された複数の時系列データから拡張アトラクタを生成する(ステップS117)。第1生成部103は、生成した拡張アトラクタをメモリ2501に格納する。拡張アトラクタの生成は、第1の実施の形態と同様である。
[0141]
 第1生成部103は、ステップS117において生成された拡張アトラクタを用いて、拡張ベクトル生成処理を実行する(ステップS119)。拡張ベクトル生成処理については、図6乃至図10を用いて説明したとおりであるので、ここでは説明を省略する。
[0142]
 なお、説明を簡単にするため複数のデータセットのうち1つのデータセットについてステップS111乃至S119の処理が実行される例を示したが、実際には、複数のデータセットの各々について処理が実行されて複数の拡張ベクトルが生成される。
[0143]
 そして、データ処理部123は、ステップS119の処理によって第1データ格納部121に格納された複数の拡張ベクトルのうちラベル1の分類に属する拡張ベクトルの各要素の平均および分散を算出する(ステップS121)。
[0144]
 データ処理部123は、ステップS119の処理によって第1データ格納部121に格納された複数の拡張ベクトルのうちラベル2の分類に属する拡張ベクトルの各要素の平均および分散を算出する(ステップS123)。
[0145]
 データ処理部123は、各要素について、ラベル1についての分布とラベル2についての分布とを正規分布と仮定して2つの正規分布が重なる部分の面積Sを算出する(ステップS125)。データ処理部123は、各要素についての面積Sを第2データ格納部125に格納する。ステップS125においては、例えば図39に示すような2つの正規分布について、重なっている部分(ハッチされた部分)である面積Sが各要素について算出される。なお、図39において横軸は確率変数を表し、縦軸は確率密度を表す。
[0146]
 第2生成部111は、ラベル1に関する関連度を(1-S)として算出し(ステップS127)、ラベル1に関する関連度を関連度格納部113に格納する。なお、ラベル2に関する関連度も、同様に(1-S)として算出され、関連度格納部113に格納される。ラベルの数が3以上である場合には、ラベル1に関する関連度は、他のラベルに対する関連度の平均値として算出される。例えばラベルの数が3である場合、ラベル1に関する関連度は、ラベル2に対する関連度とラベル3に対する関連度との平均値として算出される。
[0147]
 ステップS127の処理により、ラベル1及びラベル2について関連度のベクトルが生成される。以降、各ラベルについて図36に示した端子E以降の処理が実行される。
[0148]
 以上のような処理を実行すれば、機械学習を実行しない場合においても、複数の時系列データの相関関係を特定することができるようになる。
[0149]
 以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
[0150]
 また、上で説明したデータ構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
[0151]
 なお、上で述べた情報処理装置1は、コンピュータ装置であって、図40に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
[0152]
 以上述べた本発明の実施の形態をまとめると、以下のようになる。
[0153]
 本実施の形態の第1の態様に係るデータ生成方法は、(A)複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、(B)複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、(C)特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する処理を含む。
[0154]
 複数の時系列データに対する機械学習に適した特徴情報を生成できるようになる。
[0155]
 また、本データ生成方法は、(D)生成された機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と寄与率との関係についての第1のデータを生成し、(E)第1のデータに基づき、特定の分類に関して、複数の時系列データの相関関係についての第2のデータを生成する処理をさらに含んでもよい。
[0156]
 特定の分類に関して複数の時系列データの相関関係を特定することができるようになる。
[0157]
 また、機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであってもよい。そして、第1のデータを生成する処理において、(d1)機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、特定の分類に対する関連度を複数の寄与率の値それぞれについて算出してもよい。
[0158]
 畳み込みニューラルネットワークに基づく機械学習は、他の機械学習と比較して、特徴画像に含まれる画素間の位置関係が考慮されるので、機械学習の分類性能を向上させることができるようになる。また、最終特徴層と識別層との間の重み行列は識別層における各分類に直接影響するので、上で述べた処理を実行すれば、識別層における特定の分類に対する関連度を適切に算出できるようになる。
[0159]
 また、機械学習データは、単層の学習モデルに基づく機械学習データであってもよい。   
[0160]
 第1のデータに対して直接学習を実行できるようになる。
[0161]
 また、第2のデータを生成する処理において、(e1)第1のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、複数の時系列データの各々が独立して特定の分類に影響することを示す第1の関係データ、複数の時系列データのうちいずれかが特定の分類に影響することを示す第2の関係データ、複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有することを示す第3の関係データ、又は複数の時系列データの各々が特定の分類に影響し、かつ、複数の時系列データが時間相関を有しないことを示す第4の関係データを生成してもよい。
[0162]
 また、第2のデータを生成する処理において、(e11)最小値に対する最大値の割合が所定値以下である場合に、第1の関係データを生成し、(e12)最大値及び最小値が第1のデータに含まれる関連度の列の端に位置する場合に、第2の関係データを生成し、(e13)最大値が第1のデータに含まれる関連度の列の中央に位置する場合に、第3の関係データを生成し、(e14)最小値が第1のデータに含まれる関連度の列の中央に位置する場合に、第4の関係データを生成してもよい。
[0163]
 また、複数の時系列データは正規化された複数の時系列データであってもよい。
[0164]
 複数の時系列データを平等に取り扱うことができるようになる。
[0165]
 本実施の形態の第2の態様に係るデータ生成装置は、(F)複数の時系列データと、複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第1生成部(実施の形態における第1生成部103は、上記第1生成部の一例である)と、(G)特徴画像と、複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第2生成部(実施の形態における機械学習部107は、第2生成部の一例である)とを有する。
[0166]
 なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD-ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

符号の説明

[0167]
 1 情報処理装置  101 時系列データ格納部
 103 第1生成部  105 画像データ格納部
 107 機械学習部  109 学習データ格納部
 111 第2生成部  113 関連度格納部
 115 判定部  117 判定結果格納部
 119 ベクトルデータ格納部  121 第1データ格納部
 123 データ処理部  125 第2データ格納部

請求の範囲

[請求項1]
 コンピュータに、
 複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
 複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
 前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
 処理を実行させるデータ生成プログラム。
[請求項2]
 前記コンピュータに、
 生成された前記機械学習データに基づき、複数の分類のうち特定の分類への影響の度合いを表す関連度と前記寄与率との関係についての第1のデータを生成し、
 前記第1のデータに基づき、前記特定の分類に関して、前記複数の時系列データの相関関係についての第2のデータを生成する、
 処理をさらに実行させる請求項1記載のデータ生成プログラム。
[請求項3]
 前記機械学習データは、畳み込みニューラルネットワークに基づく機械学習データであり、
 前記第1のデータを生成する処理において、
 前記機械学習データに含まれる、最終特徴層と識別層との間の重み行列の要素の絶対値に基づき、前記特定の分類に対する関連度を前記複数の寄与率の値それぞれについて算出する、
 請求項2記載のデータ生成プログラム。
[請求項4]
 前記機械学習データは、単層の学習モデルに基づく機械学習データである、
 請求項1記載のデータ生成プログラム。
[請求項5]
 前記第2のデータを生成する処理において、
 前記第1のデータに含まれる関連度の最大値、最小値、並びに最大値及び最小値の位置に基づき、前記複数の時系列データの各々が独立して前記特定の分類に影響することを示す第1の関係データ、前記複数の時系列データのうちいずれかが前記特定の分類に影響することを示す第2の関係データ、前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有することを示す第3の関係データ、又は前記複数の時系列データの各々が前記特定の分類に影響し、かつ、前記複数の時系列データが時間相関を有しないことを示す第4の関係データを生成する、
 請求項2記載のデータ生成プログラム。
[請求項6]
 前記第2のデータを生成する処理において、
 前記最小値に対する前記最大値の割合が所定値以下である場合に、前記第1の関係データを生成し、
 前記最大値及び前記最小値が前記第1のデータに含まれる関連度の列の端に位置する場合に、前記第2の関係データを生成し、
 前記最大値が前記第1のデータに含まれる関連度の列の中央に位置する場合に、前記第3の関係データを生成し、
 前記最小値が前記第1のデータに含まれる関連度の列の中央に位置する場合に、前記第4の関係データを生成する、
 請求項5記載のデータ生成プログラム。
[請求項7]
 前記複数の時系列データは正規化された複数の時系列データである、
 請求項1乃至6のいずれか1つ記載のデータ生成プログラム。
[請求項8]
 コンピュータが、
 複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、
 複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成し、
 前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する、
 処理を実行するデータ生成方法。
[請求項9]
 複数の時系列データと、前記複数の時系列データそれぞれの寄与率とにより生成される座標で表された点の集合に対するパーシステントホモロジ処理により、前記寄与率に対応したベッチ数系列を生成し、複数の寄与率に対してそれぞれ生成された複数のベッチ数系列から特徴画像を生成する第1生成部と、
 前記特徴画像と、前記複数の時系列データに対応した分類とを対応付けた機械学習データを生成する第2生成部と、
 を有するデータ生成装置。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]

[ 図 17]

[ 図 18]

[ 図 19]

[ 図 20]

[ 図 21]

[ 図 22]

[ 図 23]

[ 図 24]

[ 図 25]

[ 図 26]

[ 図 27]

[ 図 28]

[ 図 29]

[ 図 30]

[ 図 31]

[ 図 32]

[ 図 33]

[ 図 34]

[ 図 35]

[ 図 36]

[ 図 37]

[ 図 38]

[ 図 39]

[ 図 40]