処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2020079733 - 音声認識装置、音声認識システム、及び音声認識方法

Document

明 細 書

発明の名称 音声認識装置、音声認識システム、及び音声認識方法

技術分野

0001  

背景技術

0002   0003  

先行技術文献

特許文献

0004  

発明の概要

発明が解決しようとする課題

0005   0006  

課題を解決するための手段

0007  

発明の効果

0008  

図面の簡単な説明

0009  

発明を実施するための形態

0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097  

産業上の利用可能性

0098  

符号の説明

0099  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12  

図面

1   2A   2B   3A   3B   4A   4B   5A   5B   6   7   8   9   10   11   12   13   14   15   16   17   18   19A   19B  

明 細 書

発明の名称 : 音声認識装置、音声認識システム、及び音声認識方法

技術分野

[0001]
 この発明は、音声認識装置、音声認識システム、及び音声認識方法に関するものである。

背景技術

[0002]
 従来、車両内の情報機器を音声で操作する音声認識装置が開発されている。以下、車両における音声認識の対象となる座席を「音声認識対象座席」という。また、音声認識対象座席に着座している搭乗者のうちの操作用の音声を発話した搭乗者を「発話者」という。また、音声認識装置に向けた発話者の音声を「発話音声」という。
[0003]
 車両内には乗員同士の会話、車両走行騒音、又は車載機器のガイダンス音声等、様々な騒音が生じ得ることから、音声認識装置は、当該騒音によって発話音声を誤認識する場合があった。そこで、特許文献1に記載された音声認識装置は、音データに基づいて音声入力開始時刻と音声入力終了時刻とを検出し、搭乗者を撮像した画像データに基づいて音声入力開始時刻から音声入力終了時刻までの期間が搭乗者が発話している発話区間であるか否かを判断する。これにより、上記音声認識装置は、搭乗者が発話していない音声に対する誤認識を抑制する。

先行技術文献

特許文献

[0004]
特許文献1 : 特開2007-199552号公報

発明の概要

発明が解決しようとする課題

[0005]
 ここで、上記特許文献1に記載された音声認識装置を、複数人の搭乗者が存在する車両に適用した例を想定する。この例において、ある搭乗者が発話している区間において別の搭乗者があくび等して発話に近い口の動きをしていた場合、上記音声認識装置は、あくび等した当該別の搭乗者は発話していないにも関わらず発話していると誤判断し、上記ある搭乗者の発話音声を当該別の搭乗者の発話音声であるものとして誤認識してしまう場合があった。このように、車両に搭乗している複数人の搭乗者が発する音声を認識する音声認識装置では、特許文献1のように音データとカメラの撮像画像とを用いたとしても、誤認識が発生するという課題があった。
[0006]
 この発明は、上記のような課題を解決するためになされたもので、複数の搭乗者が利用する音声認識装置において他搭乗者が発話した音声に対する誤認識を抑制することを目的とする。

課題を解決するための手段

[0007]
 この発明に係る音声認識装置は、車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する音声信号処理部と、音声信号処理部により分離された搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する音声認識部と、搭乗者ごとの音声認識スコアを用いて、搭乗者ごとの音声認識結果のうち、どの搭乗者に対応する音声認識結果を採用するかを判定するスコア利用判定部とを備えるものである。

発明の効果

[0008]
 この発明によれば、複数の搭乗者が利用する音声認識装置において他搭乗者が発話した音声に対する誤認識を抑制することができる。

図面の簡単な説明

[0009]
[図1] 実施の形態1に係る音声認識装置を備えた情報機器の構成例を示すブロック図である。
[図2A] 実施の形態1に係る音声認識装置の理解を助けるための参考例であり、車両内の状況の一例を示す図である。
[図2B] 図2Aの状況における、参考例の音声認識装置による処理結果を示す図である。
[図3A] 実施の形態1における車両内の状況の一例を示す図である。
[図3B] 図3Aの状況における、実施の形態1に係る音声認識装置による処理結果を示す図である。
[図4A] 実施の形態1における車両内の状況の一例を示す図である。
[図4B] 図4Aの状況における、実施の形態1に係る音声認識装置による処理結果を示す図である。
[図5A] 実施の形態1における車両内の状況の一例を示す図である。
[図5B] 図5Aの状況における、実施の形態1に係る音声認識装置による処理結果を示す図である。
[図6] 実施の形態1に係る音声認識装置の動作例を示すフローチャートである。
[図7] 実施の形態2に係る音声認識装置を備えた情報機器の構成例を示すブロック図である。
[図8] 図3Aの状況における、実施の形態2に係る音声認識装置による処理結果を示す図である。
[図9] 図4Aの状況における、実施の形態2に係る音声認識装置による処理結果を示す図である。
[図10] 図5Aの状況における、実施の形態2に係る音声認識装置による処理結果を示す図である。
[図11] 実施の形態2に係る音声認識装置の動作例を示すフローチャートである。
[図12] 実施の形態2に係る音声認識装置の変形例を示すブロック図である。
[図13] 実施の形態3に係る音声認識装置を備えた情報機器の構成例を示すブロック図である。
[図14] 実施の形態3に係る音声認識装置の動作例を示すフローチャートである。
[図15] 実施の形態3に係る音声認識装置による処理結果を示す図である。
[図16] 実施の形態4に係る音声認識装置を備えた情報機器の構成例を示すブロック図である。
[図17] 実施の形態4に係る音声認識装置の動作例を示すフローチャートである。
[図18] 実施の形態4に係る音声認識装置による処理結果を示す図である。
[図19A] 各実施の形態に係る音声認識装置のハードウェア構成の一例を示す図である。
[図19B] 各実施の形態に係る音声認識装置のハードウェア構成の別の例を示す図である。

発明を実施するための形態

[0010]
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る音声認識装置20を備えた情報機器10の構成例を示すブロック図である。情報機器10は、例えば、車両用のナビゲーションシステム、運転者用のメータディスプレイを含む統合コックピットシステム、PC(Personal Computer)、タブレットPC、又はスマートフォン等の携帯情報端末である。この情報機器10は、集音装置11及び音声認識装置20を備える。
 なお、以下では、日本語を認識する音声認識装置20を例に挙げて説明するが、音声認識装置20が認識対象とする言語は日本語に限定されない。
[0011]
 音声認識装置20は、音声信号処理部21、音声認識部22、スコア利用判定部23、対話管理データベース24(以下、「対話管理DB24」と称する)、及び応答決定部25を備える。また、音声認識装置20には、集音装置11が接続されている。
[0012]
 集音装置11は、N個(Nは2以上の整数)のマイク11-1~11-Nにより構成されている。なお、集音装置11は、無指向性のマイク11-1~11-Nが一定間隔に配置されたアレイマイクであってもよい。また、指向性のマイク11-1~11-Nが、車両の各音声認識対象座席前に配置されていてもよい。このように、音声認識対象座席に着座する全搭乗者が発する音声を集音できる位置であれば、集音装置11の配置場所は問わない。
[0013]
 実施の形態1においては、マイク11-1~11-Nがアレイマイクである前提で音声認識装置20を説明する。この集音装置11は、マイク11-1~11-Nにより集音された音声に対応するアナログ信号(以下、「音声信号」と称する)A1~ANを出力する。すなわち、音声信号A1~ANは、マイク11-1~11-Nと一対一に対応する。
[0014]
 音声信号処理部21は、まず、集音装置11が出力したアナログの音声信号A1~ANをアナログデジタル変換(以下、「AD変換」と称する)し、デジタルの音声信号D1~DNにする。次に、音声信号処理部21は、音声信号D1~DNから、各音声認識対象座席に着座する発話者の発話音声のみの音声信号d1~dMを分離する。なお、MはN以下の整数であり、例えば音声認識対象座席の座席数に対応する。以下、音声信号D1~DNから音声信号d1~dMを分離する音声信号処理について、詳細に説明する。
[0015]
 音声信号処理部21は、音声信号D1~DNのうち、発話音声とは異なる音声に対応する成分(以下、「ノイズ成分」と称する)を除去する。また、音声認識部22が各搭乗者の発話音声を独立して音声認識できるように、音声信号処理部21はM個の第1~第M処理部21-1~21-Mを有し、第1~第M処理部21-1~21-Mが各音声認識対象座席に着座した発話者の音声のみを抽出したM個の音声信号d1~dMを出力する。
[0016]
 ノイズ成分は、例えば、車両の走行により発生した騒音に対応する成分、及び搭乗者のうちの発話者と異なる搭乗者により発話された音声に対応する成分等を含むものである。音声信号処理部21におけるノイズ成分の除去には、ビームフォーミング法、バイナリマスキング法又はスペクトルサブトラクション法等の公知の種々の方法を用いることができる。このため、音声信号処理部21におけるノイズ成分の除去についての詳細な説明は省略する。
[0017]
 なお、音声信号処理部21が独立成分分析等のブラインド音声分離技術を用いる場合、音声信号処理部21は1個の第1処理部21-1を有し、第1処理部21-1が音声信号D1~DNから音声信号d1~dMを分離する。ただし、ブラインド音声分離技術を用いる場合は複数の音源数(つまり発話者数)が必要となるため、後述するカメラ12及び画像解析部26によって搭乗者数及び発話者数を検知して音声信号処理部21に通知する必要がある。
[0018]
 音声認識部22は、まず、音声信号処理部21が出力した音声信号d1~dMのうちの発話音声に対応する音声区間(以下、「発話区間」と称する)を検出する。次に、音声認識部22は、当該発話区間に対し、音声認識用の特徴量を抽出し、当該特徴量を用いて音声認識を実行する。なお、音声認識部22は、各搭乗者の発話音声を独立して音声認識できるように、M個の第1~第M認識部22-1~22-Mを有する。第1~第M認識部22-1~22-Mは、音声信号d1~dMから検出した発話区間の音声認識結果と、音声認識結果の信頼度を示す音声認識スコアと、発話区間の始端時刻及び終端時刻とを、スコア利用判定部23へ出力する。
[0019]
 音声認識部22における音声認識処理には、HMM(Hidden Markov Model)法等の公知の種々の方法を用いることができる。このため、音声認識部22における音声認識処理についての詳細な説明は省略する。また、音声認識部22が算出する音声認識スコアは、音響モデルの出力確率と言語モデルの出力確率との双方を考慮した値でもよいし、音響モデルの出力確率のみの音響スコアでもよい。
[0020]
 スコア利用判定部23は、まず、音声認識部22が出力した音声認識結果のうち、一定時間内(例えば、1秒以内)に同一の音声認識結果が存在するか否かを判定する。この一定時間は、ある搭乗者の発話音声が他の搭乗者の発話音声に重畳することによって当該他の搭乗者の音声認識結果に反映され得る時間であり、スコア利用判定部23に対して予め与えられている。スコア利用判定部23は、一定時間内に同一の音声認識結果が存在する場合、当該同一の音声認識結果それぞれに対応する音声認識スコアを参照し、最良スコアの音声認識結果を採用する。最良スコアでない音声認識結果は棄却される。一方、スコア利用判定部23は、一定時間内に異なる音声認識結果が存在する場合、異なる音声認識結果のそれぞれを採用する。
[0021]
 なお、複数の発話者が同時に同じ発話内容を発話することも考えられる。そこで、スコア利用判定部23は、音声認識スコアの閾値を設け、当該閾値以上の音声認識スコアを持つ音声認識結果に対応する搭乗者が発話していると判定し、この音声認識結果を採用することとしてもよい。また、スコア利用判定部23は、認識対象語ごとに当該閾値を変更するようにしてもよい。また、スコア利用判定部23は、先に音声認識スコアの閾値判定を行い、上記同一の音声認識結果全ての音声認識スコアが閾値未満である場合には最良スコアの音声認識結果のみを採用することとしてもよい。
[0022]
 対話管理DB24には、音声認識結果と情報機器10が実行すべき機能との対応関係が、データベースとして定義されている。例えば、「エアコンの風量を下げて」という音声認識結果に対して、「エアコンの風量を1段階下げる」という機能が定義されている。また、対話管理DB24には、機能が発話者に依存するか否かを示す情報が定義されていてもよい。
[0023]
 応答決定部25は、対話管理DB24を参照し、スコア利用判定部23が採用した音声認識結果に対応する機能を決定する。また、応答決定部25は、もし、スコア利用判定部23が複数の同一の音声認識結果を採用した場合、機能が発話者に依存しないものであれば、最良の音声認識スコアを持つ音声認識結果、つまり最も信頼度が高い音声認識結果に対応する機能のみを決定する。応答決定部25は、決定した機能を情報機器10へ出力する。情報機器10は、応答決定部25が出力した機能を実行する。情報機器10は、機能実行時に当該機能実行を搭乗者に通知する応答音声をスピーカから出力する等してもよい。
[0024]
 ここで、発話者に依存する機能例と依存しない機能例を説明する。
 例えば、エアコンの操作に関しては、座席ごとに異なる風量及び温度を設定可能であるため、同一の音声認識結果であっても発話者ごとに機能を実行する必要がある。より具体的には、第1搭乗者1と第2搭乗者2の発話音声の音声認識結果が「エアコンの温度を下げて」であり、双方の音声認識結果の音声認識スコアが閾値以上であったとする。この場合、応答決定部25は、音声認識結果「エアコンの温度を下げて」に対応する機能「エアコンの風量を1段階下げる」が発話者に依存すると判断し、第1搭乗者1と第2搭乗者2とに対してエアコンの温度を下げる機能を実行する。
[0025]
 一方、目的地検索及び音楽再生等、発話者に依存せず全搭乗者共通である機能に関しては、音声認識結果が同一である場合に発話者ごとに機能を実行する必要がない。そのため、同一の音声認識結果が複数存在し、かつ、当該音声認識結果に対応する機能が発話者に依存しない場合、応答決定部25は、最良スコアの音声認識結果のみに対応する機能を決定する。より具体的には、第1搭乗者1と第2搭乗者2の発話音声の音声認識結果が「音楽かけて」であり、双方の音声認識結果の音声認識スコアが閾値以上であったとする。この場合、応答決定部25は、音声認識結果「音楽かけて」に対応する機能「音楽を再生する」が発話者に依存しないと判断し、第1搭乗者1の音声認識結果及び第2搭乗者2の音声認識結果のうちのより音声認識スコアが高い方に対応する機能を実行する。
[0026]
 次に、音声認識装置20の動作の具体例を説明する。
 まず、図2A及び図2Bを用いて、実施の形態1に係る音声認識装置20の理解を助けるための参考例を説明する。図2Aにおいて、車両には参考例の情報機器10Aと音声認識装置20Aとが設置されている。参考例の音声認識装置20Aは、先立って説明した特許文献1記載の音声認識装置に相当するものとする。図2Bは、図2Aの状況における、参考例の音声認識装置20による処理結果を示す図である。
[0027]
 図2Aにおいて、第1~第4搭乗者1~4の4人は、音声認識装置20Aの音声認識対象座席に着座している。第1搭乗者1は「エアコンの風量を下げて」と発話している。第2搭乗者2と第4搭乗者4は発話していない。第3搭乗者3は、第1搭乗者1の発話中にたまたまあくびをしている。声認識装置20Aは、音声信号を用いて発話区間を検出すると共に、カメラの撮像画像を用いて当該発話区間が適切な発話区間であるか否か(つまり、発話か非発話か)を判定する。この状況においては、音声認識装置20Aが第1搭乗者1の音声認識結果「エアコンの風量を下げて」のみを出力するべきである。しかし、音声認識装置20Aは、第1搭乗者1だけでなく、第2搭乗者2、第3搭乗者3、及び第4搭乗者4についても音声認識を行っているため、図2Bのように第2搭乗者2及び第3搭乗者3についても誤って音声を誤検出してしまう場合がある。第2搭乗者2については、音声認識装置20Aがカメラの撮像画像を用いて第2搭乗者2が発話しているか否かを判定することにより、第2搭乗者2は非発話であると判定して音声認識結果「エアコンの風量を下げて」を棄却することができる。一方、第3搭乗者3がたまたまあくびをしており発話に近い口の動きをしていた場合、音声認識装置20Aがカメラの撮像画像を用いて第3搭乗者3が発話しているか否かを判定したとしても、第3搭乗者3が発話していると誤判定してしまう。すると、第3搭乗者3が「エアコンの風量を下げて」と発話しているという誤認識が発生する。この場合、情報機器10Aは、音声認識装置20Aの音声認識結果に従い、「前席左と後席左のエアコンの風量を下げます。」という間違った応答をしてしまう。
[0028]
 図3Aは、実施の形態1における車両内の状況の一例を示す図である。図3Bは、図3Aの状況における、実施の形態1に係る音声認識装置20による処理結果を示す図である。図3Aでは、図2Aと同様に第1搭乗者1が「エアコンの風量を下げて」と発話している。第2搭乗者2と第4搭乗者4は発話していない。第3搭乗者3は、第1搭乗者1の発話中にたまたまあくびをしている。音声信号処理部21が第1搭乗者1の発話音声を音声信号d2,d3から完全に分離できていない場合、第1搭乗者1の発話音声が第2搭乗者2の音声信号d2と第3搭乗者3の音声信号d3とに残る。その場合、音声認識部22は、第1~第3搭乗者1~3の音声信号d1~d3から発話区間を検出すると共に、「エアコンの風量を下げて」という音声を認識する。ただし、音声信号処理部21が第2搭乗者2の音声信号d2及び第3搭乗者3の音声信号d3から第1搭乗者1の発話音声成分を減衰させたため、音声信号d2,d3に対応する音声認識スコアは、発話音声が強調されている音声信号d1の音声認識スコアよりも低くなる。スコア利用判定部23は、第1~第3搭乗者1~3についての同一の音声認識結果に対応する音声認識スコアを比較し、最良の音声認識スコアに対応する第1搭乗者1の音声認識結果のみを採用する。また、スコア利用判定部23は、第2搭乗者2及び第3搭乗者3の音声認識結果は最良の音声認識スコアではないため、非発話と判定して音声認識結果を棄却する。これにより、音声認識装置20は、第3搭乗者3に対応する不要な音声認識結果を棄却し、第1搭乗者1のみの音声認識結果を適切に採用することができている。この場合、情報機器10は、音声認識装置20の音声認識結果に従い、「前席左のエアコンの風量を下げます。」という正しい応答ができる。
[0029]
 図4Aは、実施の形態1における車両内の状況の一例を示す図である。図4Bは、図4Aの状況における、実施の形態1に係る音声認識装置20による処理結果を示す図である。図4Aの例では、第1搭乗者1が「エアコンの風量を下げて」と発話し、このとき、第2搭乗者2が「音楽かけて」と発話している。第3搭乗者3は、第1搭乗者1と第2搭乗者2の発話中にあくびをしている。第4搭乗者4は発話していない。第3搭乗者3が発話していない状態であるにも関わらず、音声認識部22は、第1搭乗者1と第3搭乗者3とに対して「エアコンの風量を下げて」という音声を認識する。ただし、スコア利用判定部23は、音声認識スコアが最良となる第1搭乗者1の音声認識結果を採用し、第3搭乗者3の音声認識結果は棄却する。一方で、第2搭乗者2の「音楽かけて」という音声認識結果は、第1搭乗者1及び第3搭乗者3の音声認識結果とは異なるため、スコア利用判定部23は、音声認識スコアの比較を行わずに第2搭乗者2の音声認識結果を採用する。この場合、情報機器10は、音声認識装置20の音声認識結果に従い、「前席左のエアコンの風量を下げます。」及び「音楽を再生します。」という正しい応答ができる。
[0030]
 図5Aは、実施の形態1における車両内の状況の一例を示す図である。図5Bは、図5Aの状況における、実施の形態1に係る音声認識装置20による処理結果を示す図である。図5Aでは、第1搭乗者1と第2搭乗者2とが「エアコンの風量を下げて」と略同時に発話し、発話中に第3搭乗者3はあくびをしている。第4搭乗者4は発話していない。第3搭乗者3は、第1搭乗者1と第2搭乗者2の発話中にあくびをしている。第4搭乗者4は発話していない。第3搭乗者3は発話していない状態であるにも関わらず、音声認識部22は、第1搭乗者1と第2搭乗者2と第3搭乗者3とに対して「エアコンの風量を下げて」という音声を認識する。この例において、スコア利用判定部23は、音声認識スコアの閾値「5000」と、第1~第3搭乗者1~3の同一の音声認識結果に対応する音声認識スコアとを比較する。そして、スコア利用判定部23は、閾値「5000」以上の音声認識スコアを持つ第1搭乗者1と第2搭乗者2の音声認識結果を採用する。一方、スコア利用判定部23は、閾値「5000」未満の音声認識スコアを持つ第3搭乗者3の音声認識結果を棄却する。この場合、情報機器10は、音声認識装置20の音声認識結果に従い、「前席のエアコンの風量を下げます。」という正しい応答ができる。
[0031]
 次に、音声認識装置20の動作例を説明する。
 図6は、実施の形態1に係る音声認識装置20の動作例を示すフローチャートである。音声認識装置20は、例えば情報機器10が作動している間、図6のフローチャートに示される動作を繰り返す。
[0032]
 ステップST001において、音声信号処理部21は、集音装置11が出力した音声信号A1~ANをAD変換し、音声信号D1~DNにする。
[0033]
 ステップST002において、音声信号処理部21は、音声信号D1~DNに対してノイズ成分を除去する音声信号処理を実行し、音声認識対象座席に着座している搭乗者ごとの発話内容を分離した音声信号d1~dMにする。例えば、図3Aのように車両に第1~第4搭乗者1~4の4人が着座している場合、音声信号処理部21は、第1搭乗者1の方向を強調した音声信号d1と、第2搭乗者2の方向を強調した音声信号d2と、第3搭乗者3の方向を強調した音声信号d3と、第4搭乗者4の方向を強調した音声信号d4とを出力する。
[0034]
 ステップST003において、音声認識部22は、音声信号d1~dMを用いて、搭乗者ごとに発話区間を検出する。ステップST004において、音声認識部22は、音声信号d1~dMを用いて、検出した発話区間に対応する音声の特徴量を抽出し、音声認識を実行すると共に音声認識スコアを算出する。
[0035]
 なお、図6の例では、音声認識部22及びスコア利用判定部23は、ステップST003において発話区間が検出されなかった搭乗者に関して、ステップST004以降の処理を実行しない。
[0036]
 ステップST005において、スコア利用判定部23は、音声認識部22が出力した音声認識結果の音声認識スコアと閾値とを比較し、音声認識スコアが閾値以上である音声認識結果に対応する搭乗者について発話していると判定し、当該音声認識結果をスコア利用判定部23へ出力する(ステップST005“YES”)。一方、スコア利用判定部23は、音声認識スコアが閾値未満である音声認識結果に対応する搭乗者について発話していないと判定する(ステップST005“NO”)。
[0037]
 ステップST006において、スコア利用判定部23は、発話していると判定した搭乗者に対応する音声認識結果のうち、一定時間内に同一の音声認識結果が複数個あるか否かを判定する。スコア利用判定部23は、一定時間内に同一の音声認識結果が複数個あると判定した場合(ステップST006“YES”)、ステップST007において、複数個の同一の音声認識結果のうち、最良スコアを持つ音声認識結果を採用する(ステップST007“YES”)。ステップST008において、応答決定部25は、対話管理DB24を参照し、スコア利用判定部23が採用した音声認識結果に対応する機能を決定する。一方、スコア利用判定部23は、複数個の同一の音声認識結果のうち、最良スコアを持つ音声認識結果以外の音声認識結果を棄却する(ステップST007“NO”)。
[0038]
 発話していると判定した搭乗者に対応する音声認識結果が、一定時間内に1つである場合又は一定時間内に複数個あるが同一でない場合(ステップST006“NO”)、処理はステップST008へ進む。ステップST008において、応答決定部25は、対話管理DB24を参照し、スコア利用判定部23が採用した音声認識結果に対応する機能を決定する。
[0039]
 なお、図6では、スコア利用判定部23が、ステップST005において閾値判定を実行するが、実行しなくてもよい。また、スコア利用判定部23は、ステップST007において最良スコアを持つ音声認識結果を採用するが、閾値以上の音声認識スコアを持つ音声認識結果を採用してもよい。さらに、応答決定部25は、ステップST008において音声認識結果に対応する機能を決定する際に、機能が発話者に依存するか否かを考慮してもよい。
[0040]
 以上のように、実施の形態1に係る音声認識装置20は、音声信号処理部21と、音声認識部22と、スコア利用判定部23とを備える。音声信号処理部21は、車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する。音声認識部22は、音声信号処理部21により分離された搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する。スコア利用判定部23は、搭乗者ごとの音声認識スコアを用いて、搭乗者ごとの音声認識結果のうち、どの搭乗者に対応する音声認識結果を採用するかを判定する。この構成により、複数の搭乗者が利用する音声認識装置20において、他搭乗者が発話した音声に対する誤認識を抑制することができる。
[0041]
 また、実施の形態1に係る音声認識装置20は、対話管理DB24と、応答決定部25とを備える。対話管理DB24は、音声認識結果と実行すべき機能との対応関係を定義したデータベースである。応答決定部25は、対話管理DB24を参照して、スコア利用判定部23により採用された音声認識結果に対応する機能を決定する。この構成により、複数の搭乗者が音声で操作する情報機器10において、他搭乗者が発話した音声に対する誤った機能実行を抑制することができる。
[0042]
 なお、実施の形態1では、音声認識装置20が対話管理DB24及び応答決定部25を備える例を示したが、情報機器10が対話管理DB24及び応答決定部25を備えていてもよい。この場合、スコア利用判定部23は、採用した音声認識結果を、情報機器10の応答決定部25へ出力する。
[0043]
実施の形態2.
 図7は、実施の形態2に係る音声認識装置20を備えた情報機器10の構成例を示すブロック図である。実施の形態2に係る情報機器10は、図1に示された実施の形態1の情報機器10に対して、カメラ12が追加された構成である。また、実施の形態2に係る音声認識装置20は、図1に示された実施の形態1の音声認識装置20に対して、画像解析部26及び画像利用判定部27が追加された構成である。図7において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。
[0044]
 カメラ12は、車室内を撮像する。このカメラ12は、例えば、赤外線カメラ又は可視光カメラにより構成されており、少なくとも、音声認識対象座席に着座している搭乗者の顔を含む範囲を撮像可能な画角を有している。なお、カメラ12は、各音声認識対象座席に着座している全搭乗者の顔を撮像するために、複数のカメラにより構成されていてもよい。
[0045]
 画像解析部26は、30FPS(Frames Per Second)等の一定周期にて、カメラ12が撮像した画像データを取得し、画像データから顔に関する特徴量である顔特徴量を抽出する。顔特徴量は、上唇及び下唇の座標値、並びに口の開き度合い等である。なお、画像解析部26は、各搭乗者の顔特徴量を独立して抽出できるように、M個の第1~第M解析部26-1~26-Mを有する。第1~第M解析部26-1~26-Mは、各搭乗者の顔特徴量と、顔特徴量を抽出した時刻(以下、「顔特徴量抽出時刻」と称する)とを、画像利用判定部27へ出力する。
[0046]
 画像利用判定部27は、音声認識部22が出力した発話区間の始端時刻及び終端時刻と、画像解析部26が出力した顔特徴量と顔特徴量抽出時刻とを用いて、発話区間に対応する顔特徴量を抽出する。そして、画像利用判定部27は、発話区間に対応する顔特徴量から、搭乗者が発話しているか否かを判定する。なお、画像利用判定部27は、各搭乗者の発話の有無を独立して判定できるように、M個の第1~第M判定部27-1~27-Mを有する。例えば、第1判定部27-1は、第1認識部22-1が出力した第1搭乗者1の発話区間の始端時刻及び終端時刻と、第1解析部26-1が出力した第1搭乗者1の顔特徴量と顔特徴量抽出時刻とを用いて、第1搭乗者1の発話区間に対応する顔特徴量を抽出して発話しているか否かを判定する。第1~第M判定部27-1~27-Mは、画像を利用した各搭乗者の発話判定結果と、音声認識結果と、音声認識結果の音声認識スコアとを、スコア利用判定部23Bへ出力する。
[0047]
 なお、画像利用判定部27は、顔特徴量に含まれる口の開き度合い等を数値化し、数値化した口の開き度合い等と予め定められた閾値とを比較することにより、発話しているか否かを判定してもよい。また、学習用画像を用いた機械学習等により発話モデルと非発話モデルとが事前に作成され、画像利用判定部27がこれらのモデルを用いて発話しているか否かを判定してもよい。また、画像利用判定部27は、モデルを用いて判定する場合、判定の信頼度を示す判定スコアを算出してもよい。
[0048]
 ここで、画像利用判定部27は、音声認識部22が発話区間を検出した搭乗者のみについて、発話しているか否かを判定する。例えば、図3Aに示される状況では、第1~第3認識部22-1~22-3が第1~第3搭乗者1~3について発話区間を検出したため、第1~第3判定部27-1~27-3は、第1~第3搭乗者1~3が発話しているか否かを判定する。これに対し、第4判定部27-4は、第4認識部22-4が第4搭乗者4について発話区間を検出しなかったため、第4搭乗者4が発話しているか否かの判定を行わない。
[0049]
 スコア利用判定部23Bは、実施の形態1のスコア利用判定部23と同様に動作する。ただし、スコア利用判定部23Bは、画像利用判定部27が発話していると判定した搭乗者の音声認識結果と、当該音声認識結果の音声認識スコアとを用いて、どの音声認識結果を採用するか否かを判定する。
[0050]
 次に、音声認識装置20の動作の具体例を説明する。
 図8は、図3Aの状況における、実施の形態2に係る音声認識装置20による処理結果を示す図である。画像利用判定部27は、音声認識部22により発話区間が検出された第1~第3搭乗者1~3について発話しているか否かを判定する。第1搭乗者1は「エアコンの風量を下げて」と発話しているため、画像利用判定部27により発話と判定される。第2搭乗者2は、口を閉じているため、画像利用判定部27により非発話と判定される。第3搭乗者3は、あくびをしており発話に近い口の動きをしていたため、画像利用判定部27により発話と誤判定される。スコア利用判定部23Bは、画像利用判定部27により発話と判定された第1搭乗者1及び第3搭乗者3についての同一の音声認識結果に対応する音声認識スコアを比較し、最良の音声認識スコアに対応する第1搭乗者1の音声認識結果のみを採用する。
[0051]
 図9は、図4Aの状況における、実施の形態2に係る音声認識装置20による処理結果を示す図である。画像利用判定部27は、音声認識部22により発話区間が検出された第1~第3搭乗者1~3について発話しているか否かを判定する。第1搭乗者1は「エアコンの風量を下げて」と発話しているため、画像利用判定部27により発話と判定される。第2搭乗者2は、「音楽かけて」と発話しているため、画像利用判定部27により発話と判定される。第3搭乗者3は、あくびをしており発話に近い口の動きをしていたため、画像利用判定部27により発話と誤判定される。スコア利用判定部23Bは、画像利用判定部27により発話と判定された第1搭乗者1及び第3搭乗者3についての同一の音声認識結果に対応する音声認識スコアを比較し、最良の音声認識スコアに対応する第1搭乗者1の音声認識結果のみを採用する。一方で、第2搭乗者2の「音楽かけて」という音声認識結果は、第1搭乗者1及び第3搭乗者3の音声認識結果とは異なるため、スコア利用判定部23Bは、音声認識スコアの比較を行わずに第2搭乗者2の音声認識結果を採用する。
[0052]
 図10は、図5Aの状況における、実施の形態2に係る音声認識装置20による処理結果を示す図である。画像利用判定部27は、音声認識部22により発話区間が検出された第1~第3搭乗者1~3について発話しているか否かを判定する。第1搭乗者1及び第2搭乗者2は「エアコンの風量を下げて」と発話しているため、画像利用判定部27により発話と判定される。第3搭乗者3は、あくびをしており発話に近い口の動きをしていたため、画像利用判定部27により発話と誤判定される。この例において、スコア利用判定部23Bは、音声認識スコアの閾値「5000」と、第1~第3搭乗者1~3の同一の音声認識結果に対応する音声認識スコアとを比較する。そして、スコア利用判定部23Bは、閾値「5000」以上の音声認識スコアを持つ第1搭乗者1と第2搭乗者2の音声認識結果を採用する。
[0053]
 次に、音声認識装置20の動作例を説明する。
 図11は、実施の形態2に係る音声認識装置20の動作例を示すフローチャートである。音声認識装置20は、例えば情報機器10が作動している間、図11のフローチャートに示される動作を繰り返す。図11のステップST001~ST004は、実施の形態1における図6のステップST001~ST004と同一の動作であるため、説明を省略する。
[0054]
 ステップST011において、画像解析部26は、カメラ12から一定周期にて画像データを取得する。ステップST012において、画像解析部26は、取得した画像データから音声認識対象座席に着座している搭乗者ごとの顔特徴量を抽出し、顔特徴量と顔特徴量抽出時刻とを画像利用判定部27へ出力する。
[0055]
 ステップST013において、画像利用判定部27は、音声認識部22が出力した発話区間の始端時刻及び終端時刻と、画像解析部26が出力した顔特徴量と顔特徴量抽出時刻とを用いて、発話区間に対応する顔特徴量を抽出する。そして、画像利用判定部27は、発話区間が検出され、かつ当該発話区間において発話に近い口の動きをしている搭乗者について、発話していると判定する(ステップST013“YES”)。一方、画像利用判定部27は、発話区間が検出されなかった搭乗者、又は発話区間は検出されたが当該発話区間において発話に近い口の動きをしていない搭乗者について、発話していないと判定する(ステップST013“NO”)。
[0056]
 ステップST006~ST008において、スコア利用判定部23Bは、画像利用判定部27により発話していると判定された搭乗者に対応する音声認識結果のうち、一定時間内に同一の音声認識結果が複数個あるか否かを判定する。なお、スコア利用判定部23BによるステップST006~ST008の動作は、実施の形態1における図6のステップST006~ST008と同一の動作であるため、説明を省略する。
[0057]
 以上のように、実施の形態2に係る音声認識装置20は、画像解析部26と、画像利用判定部27とを備える。画像解析部26は、複数人の搭乗者が撮像された画像を用いて搭乗者ごとの顔特徴量を算出する。画像利用判定部27は、搭乗者ごとの発話音声の始端時刻から終端時刻までの顔特徴量を用いて、搭乗者ごとに発話しているか否かを判定する。スコア利用判定部23Bは、画像利用判定部27により発話していると判定された2人以上の搭乗者に対応する同一の音声認識結果が存在する場合、2人以上の搭乗者ごとの音声認識スコアを用いて音声認識結果を採用するか否かを判定する。この構成により、複数の搭乗者が利用する音声認識装置20において、他搭乗者が発話した音声に対する誤認識をさらに抑制することができる。
[0058]
 なお、実施の形態2のスコア利用判定部23Bは、音声認識スコアを用いて音声認識結果を採用するか否かを判定するようにしたが、画像利用判定部27が算出した判定スコアも考慮した上で音声認識結果を採用するか否かを判定するようにしてもよい。この場合、スコア利用判定部23Bは、例えば、音声認識スコアに代えて、音声認識スコアと画像利用判定部27が算出した判定スコアとを加算した値又は平均した値を用いる。この構成により、音声認識装置20は、他搭乗者が発話した音声に対する誤認識をさらに抑制することができる。
[0059]
 図12は、実施の形態2に係る音声認識装置20の変形例を示すブロック図である。図12に示されるように、画像利用判定部27は、画像解析部26が出力した顔特徴量を用いて、搭乗者が発話している発話区間の始端時刻及び終端時刻を判定し、発話区間の有無及び判定した発話区間を音声認識部22へ出力する。音声認識部22は、画像利用判定部27を介して音声信号処理部21から取得した音声信号d1~dMのうち、画像利用判定部27が判定した発話区間に対して音声認識を実行する。すなわち、音声認識部22は、画像利用判定部27により発話区間が有ると判定された搭乗者の発話区間の発話音声を音声認識し、発話区間が無いと判定された搭乗者の発話音声を音声認識しない。この構成により、音声認識装置20の処理負荷を軽減可能である。また、音声認識部22が音声信号d1~dMを用いて発話区間を検出する構成(例えば、実施の形態1)の場合には発話音声が小さい等の理由で発話区間を検出できない可能性があるが、画像利用判定部27による顔特徴量を用いた発話区間の判定を実施することにより発話区間の判定性能が向上する。なお、音声認識部22は、音声信号d1~dMを、画像利用判定部27を介さずに音声信号処理部21から取得してもよい。
[0060]
実施の形態3.
 図13は、実施の形態3に係る音声認識装置20を備えた情報機器10の構成例を示すブロック図である。実施の形態3に係る音声認識装置20は、図1に示された実施の形態1の音声認識装置20に対して、意図理解部30が追加された構成である。図13において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。
[0061]
 意図理解部30は、音声認識部22が出力した搭乗者ごとの音声認識結果に対し、意図理解処理を実行する。意図理解部30は、搭乗者ごとの意図理解結果と、意図理解結果の信頼度を示す意図理解スコアとを、スコア利用判定部23Cへ出力する。なお、意図理解部30は、音声認識部22と同様に、各搭乗者の発話内容を独立して意図理解処理できるように、各音声認識対象座席に対応するM個の第1~第M理解部30-1~30-Mを有する。
[0062]
 意図理解部30が意図理解処理を実行するために、例えば、想定される発話内容がテキストに書き起こされ、当該テキストが意図ごとに分類されたベクトル空間モデル等のモデルが用意される。意図理解部30は、意図理解処理実行時、用意されているベクトル空間モデルを用いて、コサイン類似度等の、音声認識結果の単語ベクトルと事前に意図ごとに分類されたテキスト群の単語ベクトルとの類似度を算出する。そして、意図理解部30は、最も類似度の高い意図を意図理解結果とする。なお、この例では、意図理解スコアは類似度に相当する。
[0063]
 スコア利用判定部23Cは、まず、意図理解部30が出力した意図理解結果のうち、一定時間内に同一の意図理解結果が存在するか否かを判定する。スコア利用判定部23Cは、一定時間内に同一の意図理解結果が存在する場合、当該同一の意図理解結果それぞれに対応する意図理解スコアを参照し、最良スコアの意図理解結果を採用する。最良スコアでない意図理解結果は棄却される。また、実施の形態1,2と同様に、スコア利用判定部23Cは、意図理解スコアの閾値を設け、当該閾値以上の意図理解スコアを持つ意図理解結果に対応する搭乗者が発話していると判定し、この意図理解結果を採用することとしてもよい。また、スコア利用判定部23Cは、先に意図理解スコアの閾値判定を行い、上記同一の意図理解結果全ての意図理解スコアが閾値未満である場合には最良スコアの意図理解結果のみを採用することとしてもよい。
[0064]
 なお、スコア利用判定部23Cは、上記のように意図理解スコアを用いて意図理解結果を採用するか否か判定するようにしたが、音声認識部22が算出した音声認識スコアを用いて意図理解結果を採用するか否か判定するようにしてもよい。この場合、スコア利用判定部23Cは、音声認識部22が算出した音声認識スコアを、音声認識部22から取得してもよいし、意図理解部30を介して取得してもよい。そして、スコア利用判定部23Cは、例えば、閾値以上の音声認識スコアを持つ音声認識結果に対応する意図理解結果に対応する搭乗者が発話していると判定し、この意図理解結果を採用する。
 この場合、スコア利用判定部23Cがまず音声認識スコアを用いて搭乗者の発話有無を判定し、その後、意図理解部30がスコア利用判定部23Cにより発話と判定された搭乗者の音声認識結果のみに対して意図理解処理を実行してもよい。この例については、図14で詳述する。
[0065]
 また、スコア利用判定部23Cは、意図理解スコアだけでなく音声認識スコアを考慮した上で意図理解結果を採用するか否かを判定するようにしてもよい。この場合、スコア利用判定部23Cは、意図理解スコアに代えて、例えば、意図理解スコアと音声認識スコアとを加算した値又は平均した値を用いる。
[0066]
 対話管理DB24Cには、意図理解結果と情報機器10が実行すべき機能との対応関係がデータベースとして定義されている。例えば、「エアコンの風量を下げて」という発話に対応する意図が「ControlAirConditioner(volume=down)」であるものとすると、当該意図に対して、「エアコンの風量を1段階下げる」という機能が定義されている。また、実施の形態1,2と同様に、対話管理DB24Cには、機能が発話者に依存するか否かを示す情報が定義されていてもよい。
[0067]
 応答決定部25Cは、対話管理DB24Cを参照し、スコア利用判定部23Cが採用した意図理解結果に対応する機能を決定する。また、応答決定部25Cは、もし、スコア利用判定部23Cが複数の同一の意図理解結果を採用した場合、機能が発話者に依存しないものであれば、最良の意図理解スコアを持つ意図理解結果に対応する機能のみを決定する。応答決定部25Cは、決定した機能を情報機器10へ出力する。情報機器10は、応答決定部25Cが出力した機能を実行する。情報機器10は、機能実行時に当該機能実行を搭乗者に通知する応答音声をスピーカから出力する等してもよい。
[0068]
 ここで、発話者に依存する機能例と依存しない機能例を説明する。
 実施の形態1,2と同様に、エアコンの操作に関しては、座席ごとに異なる風量及び温度を設定可能であるため、同一の意図理解結果であっても発話者ごとに機能を実行する必要がある。より具体的には、第1搭乗者1の音声認識結果が「エアコンの温度を下げて」であり、第2搭乗者2の音声認識結果が「暑い」であり、第1搭乗者1と第2搭乗者2の意図理解結果が「ControlAirConditioner(tempereature=down)」であり、双方の意図理解結果の意図理解スコアが閾値以上であったとする。この場合、応答決定部25Cは、意図理解結果「ControlAirConditioner」が発話者に依存すると判断し、第1搭乗者1と第2搭乗者2とに対してエアコンの温度を下げる機能を実行する。
[0069]
 一方、目的地検索及び音楽再生等、発話者に依存せず全搭乗者共通である機能に関しては、意図理解結果が同一である場合に発話者ごとに機能を実行する必要がない。そのため、同一の意図理解結果が複数存在し、かつ、当該意図理解結果に対応する機能が発話者に依存しない場合、応答決定部25Cは、最良スコアの意図理解結果のみに対応する機能を決定する。より具体的には、第1搭乗者1の音声認識結果が「音楽かけて」であり、第2搭乗者2の音声認識結果が「音楽再生して」であり、第1搭乗者1と第2搭乗者2の意図理解結果が「PlayMusic(state=on)」であり、双方の意図理解結果の意図理解スコアが閾値以上であったとする。この場合、応答決定部25Cは、意図理解結果「PlayMusic」が発話者に依存しないと判断し、第1搭乗者1の意図理解結果及び第2搭乗者2の意図理解結果のうちのより意図理解スコアが高い方に対応する機能を実行する。
[0070]
 次に、音声認識装置20の動作例を説明する。
 図14は、実施の形態3に係る音声認識装置20の動作例を示すフローチャートである。音声認識装置20は、例えば情報機器10が作動している間、図14のフローチャートに示される動作を繰り返す。図14のステップST001~ST005は、実施の形態1における図6のステップST001~ST005と同一の動作であるため、説明を省略する。
[0071]
 図15は、実施の形態3に係る音声認識装置20による処理結果を示す図である。ここでは、例として、図15に示される具体例を交えながら説明する。図15の例では、第1搭乗者1が「エアコンの風量を上げて」と発話し、第2搭乗者2が「エアコンの風を強くして」と発話している。第3搭乗者3は、第1搭乗者1と第2搭乗者2の発話中にあくびをしている。第4搭乗者4は発話していない。
[0072]
 ステップST101において、意図理解部30は、スコア利用判定部23Cにより音声認識スコアが閾値以上であると判定された音声認識結果に対して意図理解処理を実行し、意図理解結果と意図理解スコアとをスコア利用判定部23Cへ出力する。図15の例では、第1搭乗者1、第2搭乗者2及び第3搭乗者3のいずれも音声認識スコアが閾値「5000」以上であるため、意図理解処理が実行される。第1搭乗者1、第2搭乗者2及び第3搭乗者3のいずれも意図理解結果が「ControlAirConditioner(volume=up)」で同一となっている。また、意図理解スコアは、第1搭乗者1が「0.96」、第2搭乗者2が「0.9」、第3搭乗者3が「0.67」となっている。なお、第3搭乗者3は、第1搭乗者1及び第2搭乗者2の発話音声を誤認識した「エアの風量を強くげて」という音声認識結果に対して意図理解処理が実行されたため、意図理解スコアが低くなっている。
[0073]
 ステップST102において、スコア利用判定部23Cは、意図理解部30が出力した意図理解結果のうち、一定時間内に同一の意図理解結果が複数個あるか否かを判定する。スコア利用判定部23Cは、一定時間内に同一の意図理解結果が複数個あると判定した場合(ステップST102“YES”)、ステップST103において、複数個の同一の意図理解結果それぞれの意図理解スコアが閾値以上か否かを判定し、意図理解スコアが閾値以上である意図理解結果に対応する搭乗者について発話していると判定する(ステップST103“YES”)。仮に、閾値が「0.8」である場合、図15の例では、第1搭乗者1及び第2搭乗者2が発話と判定される。一方、スコア利用判定部23Cは、意図理解スコアが閾値未満である意図理解結果に対応する搭乗者について発話していないと判定する(ステップST103“NO”)。
[0074]
 意図理解部30が出力した意図理解結果が一定時間内に1つである場合又は意図理解部30が出力した意図理解結果が一定時間内に複数個あるが同一でない場合(ステップST102“NO”)、スコア利用判定部23Cは、意図理解部30が出力した意図理解結果全てを採用する。ステップST105において、応答決定部25Cは、対話管理DB24Cを参照し、意図理解部30が出力した意図理解結果全てに対応する機能を決定する。
[0075]
 ステップST104において、応答決定部25Cは、対話管理DB24Cを参照し、スコア利用判定部23Cが採用した閾値以上の意図理解スコアを持つ複数個の同一の意図理解結果に対応する機能が発話者依存か否かを判定する。応答決定部25Cは、閾値以上の意図理解スコアを持つ複数個の同一の意図理解結果に対応する機能が発話者依存である場合(ステップST104“YES”)、ステップST105において、複数個の同一の意図理解結果それぞれに対応する機能を決定する。一方、閾値以上の意図理解スコアを持つ複数個の同一の意図理解結果に対応する機能が発話者非依存である場合(ステップST104“NO”)、応答決定部25CはステップST106において、複数個の同一の意図理解結果のうち、最良スコアを持つ意図理解結果に対応する機能を決定する。図15の例では、第1搭乗者1及び第2搭乗者2の意図理解結果「ControlAirConditioner」に対応する機能はエアコン操作であり発話者依存であるため、応答決定部25Cは、第1搭乗者1及び第2搭乗者2に対してエアコンの風量を1段階上げる機能を決定する。したがって、情報機器10は、第1搭乗者1側及び第2搭乗者2側のエアコンの風量を1段階上げる機能を実行する。
[0076]
 以上のように、実施の形態3に係る音声認識装置20は、音声信号処理部21と、音声認識部22と、意図理解部30と、スコア利用判定部23Cとを備える。音声信号処理部21は、車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する。音声認識部22は、音声信号処理部21により分離された搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する。意図理解部30は、搭乗者ごとの音声認識結果を用いて、搭乗者ごとの発話の意図を理解すると共に意図理解スコアを算出する。スコア利用判定部23Cは、搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方を用いて、搭乗者ごとの意図理解結果のうち、どの搭乗者に対応する意図理解結果を採用するかを判定する。この構成により、複数の搭乗者が利用する音声認識装置20において、他搭乗者が発話した音声に対する誤認識を抑制することができる。また、音声認識装置20は、意図理解部30を備えることにより、搭乗者が認識対象語を意識せず自由に発話した場合でも当該発話の意図を理解することができる。
[0077]
 また、実施の形態3に係る音声認識装置20は、対話管理DB24Cと、応答決定部25Cとを備える。対話管理DB24Cは、意図理解結果と実行すべき機能との対応関係を定義した対話管理データベースである。応答決定部25Cは、応答決定部25Cを参照して、スコア利用判定部23Cにより採用された意図理解結果に対応する機能を決定する。この構成により、複数の搭乗者が音声で操作する情報機器10において、他搭乗者が発話した音声に対する誤った機能実行を抑制することができる。また、音声認識装置20が意図理解部30を備えることにより、情報機器10は、搭乗者が認識対象語を意識せず自由に発話した場合でも搭乗者が意図した機能を実行することができる。
[0078]
 なお、実施の形態3では、音声認識装置20が対話管理DB24C及び応答決定部25Cを備える例を示したが、情報機器10が対話管理DB24C及び応答決定部25Cを備えていてもよい。この場合、スコア利用判定部23Cは、採用した意図理解結果を、情報機器10の応答決定部25Cへ出力する。
[0079]
実施の形態4.
 図16は、実施の形態4に係る音声認識装置20を備えた情報機器10の構成例を示すブロック図である。実施の形態4に係る情報機器10は、図13に示された実施の形態3の情報機器10に対して、カメラ12が追加された構成である。また、実施の形態4に係る音声認識装置20は、図13に示された実施の形態3の音声認識装置20に対して、図7に示された実施の形態2の画像解析部26及び画像利用判定部27が追加された構成である。図16において、図7及び図13と同一又は相当する部分は、同一の符号を付し説明を省略する。
[0080]
 意図理解部30は、画像利用判定部27が出力した、画像を利用した各搭乗者の発話判定結果と、音声認識結果と、音声認識結果の音声認識スコアとを受け取る。意図理解部30は、画像利用判定部27が発話していると判定した搭乗者の音声認識結果のみに対して意図理解処理を実行し、画像利用判定部27が発話していないと判定した搭乗者の音声認識結果に対して意図理解処理を実行しない。そして、意図理解部30は、意図理解処理を実行した搭乗者ごとの意図理解結果と、意図理解スコアとを、スコア利用判定部23Dへ出力する。
[0081]
 スコア利用判定部23Dは、実施の形態3のスコア利用判定部23Cと同様に動作する。ただし、スコア利用判定部23Dは、画像利用判定部27が発話していると判定した搭乗者の音声認識結果に対応する意図理解結果と、当該意図理解結果の意図理解スコアとを用いて、どの意図理解結果を採用するか否かを判定する。
[0082]
 なお、スコア利用判定部23Dは、上記のように意図理解スコアを用いて意図理解結果を採用するか否か判定するようにしたが、音声認識部22が算出した音声認識スコアを用いて意図理解結果を採用するか否か判定するようにしてもよい。この場合、スコア利用判定部23Dは、音声認識部22が算出した音声認識スコアを、音声認識部22から取得してもよいし、画像利用判定部27と意図理解部30とを介して取得してもよい。そして、スコア利用判定部23Dは、例えば、閾値以上の音声認識スコアを持つ音声認識結果に対応する意図理解結果に対応する搭乗者が発話していると判定し、この意図理解結果を採用する。
[0083]
 また、スコア利用判定部23Dは、意図理解スコアだけでなく音声認識スコア又は判定スコアの少なくとも一方を考慮した上で意図理解結果を採用するか否かを判定するようにしてもよい。この場合、スコア利用判定部23Dは、画像利用判定部27が算出した判定スコアを、画像利用判定部27から取得してもよいし、意図理解部30を介して取得してもよい。そして、スコア利用判定部23Dは、意図理解スコアに代えて、例えば、意図理解スコアと音声認識スコアと判定スコアとを加算した値又は平均した値を用いる。
[0084]
 次に、音声認識装置20の動作例を説明する。
 図17は、実施の形態4に係る音声認識装置20の動作例を示すフローチャートである。音声認識装置20は、例えば情報機器10が作動している間、図17のフローチャートに示される動作を繰り返す。図17のステップST001~ST004及びステップST011~ST013は実施の形態2における図11のステップST001~ST004及びステップST011~ST013と同一の動作であるため、説明を省略する。
[0085]
 図18は、実施の形態4に係る音声認識装置20による処理結果を示す図である。ここでは、例として、図18に示される具体例を交えながら説明する。図18の例では、実施の形態3における図15の例と同様に、第1搭乗者1が「エアコンの風量を上げて」と発話し、第2搭乗者2が「エアコンの風を強くして」と発話している。第3搭乗者3は、第1搭乗者1と第2搭乗者2の発話中にあくびをしている。第4搭乗者4は発話していない。
[0086]
 ステップST111において、意図理解部30は、画像利用判定部27により発話していると判定された搭乗者に対応する音声認識結果に対して意図理解処理を実行し、意図理解結果と意図理解スコアとをスコア利用判定部23Dへ出力する。図18の例では、第1搭乗者1、第2搭乗者2、及び第3搭乗者3のいずれも発話又は発話に近い口の動きをしていたため、画像利用判定部27により発話していると判定され、意図理解処理が実行される。
 図17のステップST102~ST106は実施の形態3における図14のステップST102~ST106の動作と同一であるため、説明を省略する。
[0087]
 以上のように、実施の形態4に係る音声認識装置20は、画像解析部26と、画像利用判定部27とを備える。画像解析部26は、複数人の搭乗者が撮像された画像を用いて搭乗者ごとの顔特徴量を算出する。画像利用判定部27は、搭乗者ごとの発話音声の始端時刻から終端時刻までの顔特徴量を用いて、搭乗者ごとに発話しているか否かを判定する。スコア利用判定部23Dは、画像利用判定部27により発話していると判定された2人以上の搭乗者に対応する同一の意図理解結果が存在する場合、2人以上の搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方を用いて意図理解結果を採用するか否かを判定する。この構成により、複数の搭乗者が利用する音声認識装置20において、他搭乗者が発話した音声に対する誤認識をさらに抑制することができる。
[0088]
 なお、実施の形態4のスコア利用判定部23Dは、画像利用判定部27により発話していると判定された2人以上の搭乗者に対応する同一の意図理解結果が存在する場合、2人以上の搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方に加えて画像利用判定部27が算出した判定スコアを用いて意図理解結果を採用するか否かを判定するようにしてもよい。この構成により、音声認識装置20は、他搭乗者が発話した音声に対する誤認識をさらに抑制することができる。
[0089]
 また、実施の形態4の音声認識部22は、実施の形態2の図12に示される音声認識部22と同様に、画像利用判定部27により発話区間が無いと判定された搭乗者の発話音声を音声認識しなくてもよい。この場合、意図理解部30は、図12の音声認識部22と23Bとの間に相当する位置に設けられる。そのため、意図理解部30も、画像利用判定部27により発話区間が無いと判定された搭乗者の発話の意図を理解しないことになる。この構成により、音声認識装置20の処理負荷が軽減可能であり、かつ、発話区間の判定性能が向上する。
[0090]
 最後に、各実施の形態に係る音声認識装置20のハードウェア構成を説明する。
 図19A及び図19Bは、各実施の形態に係る音声認識装置20のハードウェア構成例を示す図である。音声認識装置20における音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、対話管理DB24,24D、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の機能は、処理回路により実現される。即ち、音声認識装置20は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路100であってもよいし、メモリ102に格納されるプログラムを実行するプロセッサ101であってもよい。
[0091]
 図19Aに示されるように、処理回路が専用のハードウェアである場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、PLC(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、SoC(System-on-a-Chip)、システムLSI(Large-Scale Integration)、又はこれらを組み合わせたものが該当する。音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、対話管理DB24,24D、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の機能を複数の処理回路100で実現してもよいし、各部の機能をまとめて1つの処理回路100で実現してもよい。
[0092]
 図19Bに示されるように、処理回路がプロセッサ101である場合、音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声認識装置20は、プロセッサ101により実行されるときに、図6等のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の手順又は方法をコンピュータに実行させるものであるとも言える。
[0093]
 ここで、プロセッサ101とは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ、又はDSP(Digital Signal Processor)等のことである。
[0094]
 メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の光ディスクであってもよいし、光磁気ディスプであってもよい。
 対話管理DB24,24Dは、メモリ102によって構成される。
[0095]
 なお、音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、音声認識装置20における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。
[0096]
 上記例では、音声信号処理部21、音声認識部22、スコア利用判定部23,23B,23C,23D、対話管理DB24,24C、応答決定部25,25C、画像解析部26、画像利用判定部27、及び意図理解部30の機能が、車両に搭載される又は持ち込まれる情報機器10に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載器等に分散されていてもよい。例えば、音声信号処理部21及び画像解析部26を備える車載器と、音声認識部22、スコア利用判定部23,23B,23C,23D、対話管理DB24,24C、応答決定部25,25C、画像利用判定部27、及び意図理解部30を備えるサーバ装置とにより、音声認識システムが構築される。
[0097]
 本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。

産業上の利用可能性

[0098]
 この発明に係る音声認識装置は、複数の発話者の音声認識を行うようにしたので、音声認識対象が複数存在する車両、鉄道、船舶又は航空機等を含む移動体用の音声認識装置に用いるのに適している。

符号の説明

[0099]
 1~4 第1~第4搭乗者、10,10A 情報機器、11 集音装置、11-1~11-N マイク、12 カメラ、20,20A 音声認識装置、21 音声信号処理部、21-1~21-M 第1~第M処理部、22 音声認識部、22-1~22-M 第1~第M認識部、23,23B,23C,23D スコア利用判定部、24,24C 対話管理DB、25,25C 応答決定部、26 画像解析部、26-1~26-M 第1~第M解析部、27 画像利用判定部、27-1~27-M 第1~第M判定部、30 意図理解部、30-1~30-M 第1~第M理解部、100 処理回路、101 プロセッサ、102 メモリ。

請求の範囲

[請求項1]
 車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する音声信号処理部と、
 前記音声信号処理部により分離された前記搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する音声認識部と、
 前記搭乗者ごとの音声認識スコアを用いて、前記搭乗者ごとの音声認識結果のうち、どの搭乗者に対応する音声認識結果を採用するかを判定するスコア利用判定部とを備える音声認識装置。
[請求項2]
 前記複数人の搭乗者が撮像された画像を用いて前記搭乗者ごとの顔の特徴量を算出する画像解析部と、
 前記搭乗者ごとの発話音声の始端時刻から終端時刻までの顔の特徴量を用いて、前記搭乗者ごとに発話しているか否かを判定する画像利用判定部とを備え、
 前記スコア利用判定部は、前記画像利用判定部により発話していると判定された2人以上の搭乗者に対応する同一の音声認識結果が存在する場合、前記2人以上の搭乗者ごとの音声認識スコアを用いて音声認識結果を採用するか否かを判定することを特徴とする請求項1記載の音声認識装置。
[請求項3]
 前記画像利用判定部は、前記搭乗者ごとの顔の特徴量を用いて、前記搭乗者ごとの発話区間を判定し、
 前記音声認識部は、前記画像利用判定部により発話区間が無いと判定された搭乗者の発話音声を音声認識しないことを特徴とする請求項2記載の音声認識装置。
[請求項4]
 音声認識結果と実行すべき機能との対応関係を定義した対話管理データベースと、
 前記対話管理データベースを参照して、前記スコア利用判定部により採用された音声認識結果に対応する機能を決定する応答決定部とを備えることを特徴とする請求項1記載の音声認識装置。
[請求項5]
 前記画像利用判定部は、前記搭乗者ごとに、発話しているか否かの判定の信頼度を示す判定スコアを算出し、
 前記スコア利用判定部は、前記画像利用判定部により発話していると判定された2人以上の搭乗者に対応する同一の音声認識結果が存在する場合、前記2人以上の搭乗者ごとの音声認識スコア及び判定スコアの少なくとも一方を用いて音声認識結果を採用するか否かを判定することを特徴とする請求項2記載の音声認識装置。
[請求項6]
 車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する音声信号処理部と、
 前記音声信号処理部により分離された前記搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する音声認識部と、
 前記搭乗者ごとの音声認識結果を用いて、前記搭乗者ごとの発話の意図を理解すると共に意図理解スコアを算出する意図理解部と、
 前記搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方を用いて、前記搭乗者ごとの意図理解結果のうち、どの搭乗者に対応する意図理解結果を採用するかを判定するスコア利用判定部とを備える音声認識装置。
[請求項7]
 前記複数人の搭乗者が撮像された画像を用いて前記搭乗者ごとの顔の特徴量を算出する画像解析部と、
 前記搭乗者ごとの発話音声の始端時刻から終端時刻までの顔の特徴量を用いて、前記搭乗者ごとに発話しているか否かを判定する画像利用判定部とを備え、
 前記スコア利用判定部は、前記画像利用判定部により発話していると判定された2人以上の搭乗者に対応する同一の意図理解結果が存在する場合、前記2人以上の搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方を用いて意図理解結果を採用するか否かを判定することを特徴とする請求項6記載の音声認識装置。
[請求項8]
 前記画像利用判定部は、前記搭乗者ごとの顔の特徴量を用いて、前記搭乗者ごとの発話区間を判定し、
 前記音声認識部は、前記画像利用判定部により発話区間が無いと判定された搭乗者の発話音声を音声認識せず、
 前記意図理解部は、前記画像利用判定部により発話区間が無いと判定された搭乗者の発話の意図を理解しないことを特徴とする請求項7記載の音声認識装置。
[請求項9]
 意図理解結果と実行すべき機能との対応関係を定義した対話管理データベースと、
 前記対話管理データベースを参照して、前記スコア利用判定部により採用された意図理解結果に対応する機能を決定する応答決定部とを備えることを特徴とする請求項6記載の音声認識装置。
[請求項10]
 前記画像利用判定部は、前記搭乗者ごとに、発話しているか否かの判定の信頼度を示す判定スコアを算出し、
 前記スコア利用判定部は、前記画像利用判定部により発話していると判定された2人以上の搭乗者に対応する同一の意図理解結果が存在する場合、前記2人以上の搭乗者ごとの音声認識スコア又は意図理解スコアの少なくとも一方に加えて判定スコアを用いて意図理解結果を採用するか否かを判定することを特徴とする請求項7記載の音声認識装置。
[請求項11]
 車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離する音声信号処理部と、
 前記音声信号処理部により分離された前記搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出する音声認識部と、
 前記搭乗者ごとの音声認識スコアを用いて、前記搭乗者ごとの音声認識結果のうち、どの搭乗者に対応する音声認識結果を採用するかを判定するスコア利用判定部とを備える音声認識システム。
[請求項12]
 音声信号処理部が、音声信号車両における複数の音声認識対象座席に着座している複数人の搭乗者の発話音声を、搭乗者ごとの発話音声に分離し、
 音声認識部が、前記音声信号処理部により分離された前記搭乗者ごとの発話音声を音声認識すると共に音声認識スコアを算出し、
 スコア利用判定部が、前記搭乗者ごとの音声認識スコアを用いて、前記搭乗者ごとの音声認識結果のうち、どの搭乗者に対応する音声認識結果を採用するかを判定する音声認識方法。

図面

[ 図 1]

[ 図 2A]

[ 図 2B]

[ 図 3A]

[ 図 3B]

[ 図 4A]

[ 図 4B]

[ 図 5A]

[ 図 5B]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]

[ 図 17]

[ 図 18]

[ 図 19A]

[ 図 19B]