Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2016148157) SYSTÈME DE RECONNAISSANCE VOCALE ET PROCÉDÉ DE RECONNAISSANCE VOCALE
Document

明 細 書

発明の名称 音声認識システムおよび音声認識方法

技術分野

0001  

背景技術

0002   0003   0004   0005   0006  

発明の開示

発明が解決しようとする課題

0007   0008  

課題を解決するための手段

0009   0010   0011   0012   0013   0014   0015  

発明の効果

0016  

図面の簡単な説明

0017  

符号の説明

0018  

発明を実施するための最良の形態

0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131  

請求の範囲

1   2   3   4   5   6   7  

図面

1   2   3   4   5   6   7   8   9  

明 細 書

発明の名称 : 音声認識システムおよび音声認識方法

技術分野

[0001]
 本発明は、音声認識に使用する音声辞書を選択する技術に関する。

背景技術

[0002]
 ユーザが、なんらかの行動を起こしつつ、同時に、スマートフォン等の携帯端末装置を使用することは、危険な行為として警鐘が鳴らされている。例えば、ユーザが、駅のホームで、携帯端末装置を操作しながら歩行する行為は、他人や電車との接触事故を誘因する危険な行為である。このような問題は、携帯端末装置の使用(閲覧や操作)に際し、ユーザは当該携帯端末装置に視線を注ぐ必要があり、これによって周囲に対するユーザの目視力が低下することに原因がある。多くの携帯端末装置において、ユーザは、情報を受け取るためにはディスプレイを閲覧しなければならず、情報を入力する(操作する)ためにはタッチパネルやキーを注視しなければならないからである。
[0003]
 従来より、携帯端末装置がユーザに情報を提供する方法として、スピーカから音声を流すなどの音声案内が知られている。また、ユーザの発した言葉(音声)に対して音声認識処理を実行し、携帯端末装置に情報を入力する技術が知られている。このように、音声案内および音声認識を採用すれば、ユーザの視線を必要とすることなく携帯端末装置を使用することができる。すなわち、音声を用いたユーザインタフェース、特に、音声認識を快適に利用するための技術は、昨今の携帯端末装置に欠かすことのできない技術になりつつある。
[0004]
 音声認識の技術において、入力された音声の音声認識率を向上させるために、ユーザの位置情報に応じて、複数の音声認識辞書の中から、最適な音声認識辞書を選択して切り替える技術が提案されている。例えば、特許文献1には、3軸ジャイロセンサーおよび3軸加速度センサーの出力に基づいて、作業者の相対的な位置を演算する音声認識装置が記載されている。当該音声認識装置は、求めた作業者の相対的な位置に応じて、複数の音声認識辞書から、当該作業者の状況に応じた音声認識辞書を選択する。
[0005]
 また、消費電力を抑制する技術として、消費電力の小さいマイコンをメインCPUとは別に搭載する技術が知られている。当該マイコンは、定常的に監視する必要があるセンサなどを制御し、その間、必要に応じてメインCPUを休ませることにより、全体として消費電力を抑制する。消費電力の抑制技術は、電力の供給能力の劣る携帯端末装置において特に重要である。
[0006]
特許文献1 : 特開2010-191223号公報

発明の開示

発明が解決しようとする課題

[0007]
 ところが、特許文献1に記載されている技術では、作業者(ユーザ)は、「会計作業を行います」というように、これからの作業の内容などを示す音声を入力しなければ、音声認識辞書の切り替えが行われないという問題があった。すなわち、ユーザは、音声認識辞書を切り替えるためのトリガを、意識的に、かつ、確実に与えなければならないという問題があった。
[0008]
 ユーザに音声認識辞書の切り替えを意識させないためには、音声認識辞書を切り替えるトリガとなる事象の発生を監視し続けなければならず、電力消費が増大するという問題を生じる。すなわち、特許文献1に記載されている技術は、入力された音声の認識率を向上させることにのみ注視しており、認識率の向上と消費電力の抑制とを両立させるという視点に欠ける技術である。

課題を解決するための手段

[0009]
 上記の課題を解決するため、請求項1の発明は、音声を音声辞書により認識する音声認識システムであって、通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能な第1演算装置と、予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて記憶する第1記憶装置と、事象を検出するための物理量を観測情報として取得する観測手段と、前記音声を音声情報として取得するマイクロフォンと、前記音声辞書を記憶する第2記憶装置と、前記第2記憶装置にアクセスする第2演算装置とを備え、前記第2演算装置は、前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を検出する事象検出手段と、前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、音声認識を実行する音声認識手段とを備え、前記事象検出手段により現在生じている事象として検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択手段をさらに備え、前記選択手段により選択された1の音声辞書候補を前記音声辞書として前記第2記憶装置に記憶させ、前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい。
[0010]
 また、請求項2の発明は、請求項1の発明に係る音声認識システムであって、前記観測手段は、ユーザの動きに起因する物理量を観測情報として取得し、前記事象検出手段は、現在生じている事象として、前記ユーザの行動を推定する。
[0011]
 また、請求項3の発明は、請求項2の発明に係る音声認識システムであって、前記事象検出手段は、前記ユーザの姿勢を推定することにより、前記ユーザの行動を推定する。
[0012]
 また、請求項4の発明は、請求項1ないし3のいずれかの発明に係る音声認識システムであって、前記複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。
[0013]
 また、請求項5の発明は、請求項1ないし4のいずれかの発明に係る音声認識システムであって、ユーザにより携帯され、前記第1演算装置、前記第2演算装置および前記第2記憶装置を備える携帯端末装置と、前記携帯端末装置との間でデータ通信が可能な状態で接続され、前記第1記憶装置および前記選択手段を備えるサーバ装置とを備える。
[0014]
 また、請求項6の発明は、請求項1ないし5のいずれかの発明に係る音声認識システムであって、前記第2記憶装置は、過去の履歴情報を記憶しており、前記事象検出手段は、前記第2記憶装置に記憶された履歴情報に基づいて、現在生じている事象を推定する。
[0015]
 また、請求項7の発明は、音声を音声辞書により認識する音声認識方法であって、予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて第1記憶装置に記憶する工程と、通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で第1演算装置の動作モードを切り替える工程と、事象を検出するための物理量を観測手段により観測情報として取得する工程と、前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を、第2演算装置により検出する工程と、現在生じている事象として前記第2演算装置により検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する工程と、選択された前記1の音声辞書候補を前記音声辞書として、前記第2演算装置によりアクセスされる第2記憶装置に記憶させる工程と、前記音声をマイクロフォンにより音声情報として取得する工程と、前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、前記第2演算装置により音声認識を実行する工程とを有し、前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい。

発明の効果

[0016]
 請求項1ないし7に記載の発明は、第1演算装置を省電力モードで動作させつつ第2演算装置によって音声認識を実行することにより、第1演算装置を省電力モードで動作させつつ第2演算装置を動作させたときの消費電力が、第1演算装置を通常動作モードで動作させたときの消費電力よりも小さいため、消費電力を抑制することができる。また、現在生じている事象として検出された事象に応じて、第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択することにより、音声認識の認識精度を低下させることなく、音声辞書の情報容量を抑制することができる。

図面の簡単な説明

[0017]
[図1] 音声認識システムを示す図である。
[図2] サーバ装置のブロック図である。
[図3] データベースの構造を例示する図である。
[図4] サーバ装置が備える機能ブロックをデータの流れとともに示す図である。
[図5] 携帯端末装置を示すブロック図である。
[図6] 携帯端末装置が備える機能ブロックをデータの流れとともに示す図である。
[図7] サーバ装置の動作を示す流れ図である。
[図8] 携帯端末装置の動作を示す流れ図である。
[図9] 携帯端末装置が実行する更新要求処理を示す流れ図である。

符号の説明

[0018]
 1 音声認識システム
 2 サーバ装置
 20,30 CPU
 200 選択部
 21,31,37 記憶装置
 210,310,370 プログラム
 211 データベース
 212 選択辞書情報
 22,32 操作部
 23,33 表示部
 24,34 通信部
 3 携帯端末装置
 311 更新要求情報
 35 スピーカ
 36 MPU
 360 インタフェース部
 361 事象検出部
 362 音声認識部
 371 観測情報
 372 事象情報
 373 履歴情報
 374 音声情報
 38 観測装置群
 39 マイクロフォン

発明を実施するための最良の形態

[0019]
 以下、本発明の好適な実施の形態について、添付の図面を参照しつつ、詳細に説明する。ただし、以下の説明において特に断らない限り、方向や向きに関する記述は、当該説明の便宜上、図面に対応するものであり、例えば実施品、製品または権利範囲等を限定するものではない。
[0020]
 また、本出願では、2015年3月17日に日本国に出願された特許出願番号2015-053376の利益を主張し、当該出願の内容は引用することによりここに組み込まれているものとする。
[0021]
 図1は、音声認識システム1を示す図である。音声認識システム1は、サーバ装置2と、ユーザによって携帯される携帯端末装置3とを備えている。携帯端末装置3は、必要に応じて図示しないネットワークを介して、サーバ装置2に接続することが可能である。これにより、サーバ装置2と携帯端末装置3との間では、データ通信が可能である。このようなネットワークとして、例えば、携帯電話網などを利用することができる。
[0022]
 なお、音声認識システム1が備えるサーバ装置2や携帯端末装置3の数は、図1に示すように1台に限定されるものではない。すなわち、音声認識システム1は、複数のサーバ装置2、あるいは、複数の携帯端末装置3から構成されていてもよい。また、後述するサーバ装置2の構成および機能が複数の装置により分担して実現されていてもよい。さらに、サーバ装置2と携帯端末装置3とを接続するネットワークの形態は、単一のネットワークに限定されるものではなく、複合網であってもよい。また、以下の説明では、特に断らない限り、サーバ装置2を操作する者を「オペレータ」と称し、携帯端末装置3を操作する者を「ユーザ」と称する。
[0023]
 図2は、サーバ装置2のブロック図である。サーバ装置2は、CPU20、記憶装置21、操作部22、表示部23および通信部24を備えている。
[0024]
 CPU20は、記憶装置21に格納されているプログラム210を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU20は、サーバ装置2が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、サーバ装置2は、一般的なコンピュータとして構成されている。
[0025]
 記憶装置21は、サーバ装置2において各種データを記憶する機能を提供する。言い換えれば、記憶装置21がサーバ装置2において電子的に固定された情報を保存する。
[0026]
 記憶装置21としては、CPU20の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(CD-ROM、DVD-ROM、PCカード、SDカード、USBメモリなど)等が該当する。図2においては、記憶装置21を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置21は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置21は、データを記憶する機能を有する装置群の総称である。
[0027]
 また、現実のCPU20は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU20が備える記憶装置も、説明の都合上、記憶装置21に含めて説明する。すなわち、一時的にCPU20自体が記憶するデータも、記憶装置21が記憶するとして説明する。図2に示すように、記憶装置21は、プログラム210、データベース211、選択辞書情報212および更新要求情報311(事象情報372)などを記憶するために使用される。
[0028]
 図3は、データベース211の構造を例示する図である。図3に示すように、データベース211は、1つの音声辞書候補ごとに1つのレコードが作成されるテーブル構造の情報である。データベース211の各レコードには、レコード番号と、事象と、音声辞書候補とが互いに関連づけられて格納される。
[0029]
 レコード番号は、データベース211の各レコードを個別に識別するための識別子である。図3に示す例では、データベース211には、n個のレコードが記録されている(nは2以上の自然数。)。
[0030]
 事象は、予め想定されるものであって、例えば、ユーザの状態種別(性別、年齢など)、ユーザの行動種別(調理や学習、通勤など)、周囲の状況種別(天気、季節、時間、屋外や屋内の区別、シーンなど)などである。もちろん、これらの種別が複合的に組み合わされて、1つの事象とされてもよい。事象としては、ユーザの使用する言語の語彙が特徴的に予測できるものを想定することが好ましい。図3に示すデータベース211の例では、事象として、「ショッピング」、「ジョギング」および「デフォルト」が登録されている。
[0031]
 音声辞書候補は、予め想定され、データベース211に登録されている複数の事象に対応して、それぞれ準備される個別の音声辞書である。例えば、「ショッピング」に対応して準備され、関連づけられている第1音声辞書は、ショッピングにおいて使用すると予想される語彙(例えば、商品名や店名、値段、用途などの言葉)を主に含む辞書である。また、例えば、「ジョギング」に関連づけられている第2音声辞書は、ジョギングにおいて使用すると予想される語彙(例えば、ペースや脈拍、コース、アドバイス、消費カロリーなどの言葉)を主に含む辞書である。
[0032]
 このように、データベース211に予め登録される複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、各語彙に関する認識精度を低下させることなく、音声辞書として使用する情報の容量を抑制することができる。一般的な音声辞書(汎用辞書)は、情報容量が数メガバイト程度である。しかし、事象を特定し、語彙を限定することにより、音声認識システム1は、例えば、それぞれの音声辞書候補の情報容量を、数キロバイト程度に抑えることができる。
[0033]
 なお、事象「デフォルト」に関連づけられている「第n音声辞書」は、現在生じている事象(検索キーとしての事象、詳細後述。)が、レコード番号「001」から「n-1」までの事象に該当しないときにも選択される音声辞書候補とする。ここに示す第n音声辞書は、汎用性のある語彙が登録されているものの、精度(例えば、サンプリング周波数)を抑えた音声辞書である。すなわち、サーバ装置2において、第n音声辞書が選択された場合、使用される音声辞書の情報容量は他の音声辞書候補と同等であるが、認識精度は犠牲となる。
[0034]
 すでに説明したように、データベース211の1つのレコードには1つの事象と1つの音声辞書候補とが格納される。そして、データベース211には、複数(n個)のレコードが作成される。すなわち、記憶装置21は、データベース211を記憶することにより、予め想定される複数の事象と、音声辞書の候補となる複数の音声辞書候補とを互いに関連づけて記憶する。したがって、記憶装置21は、音声認識システム1における第1記憶装置に相当する。
[0035]
 図2に戻って、選択辞書情報212は、データベース211に登録されている複数の音声辞書候補の中から、CPU20によって選択された1の音声辞書候補を含む情報である。選択辞書情報212は、更新要求情報311(事象情報372を含む。)を送信した携帯端末装置3に向けて、サーバ装置2から送信される。
[0036]
 更新要求情報311は、携帯端末装置3において作成され、サーバ装置2により受信される情報である。更新要求情報311は、当該携帯端末装置3を個別に識別する識別子(例えば、ネットワークアドレスなど)と、事象情報372とを含む情報である。詳細は後述するが、携帯端末装置3は、更新要求情報311をサーバ装置2に向けて送信することにより、選択辞書情報212を送信するようにサーバ装置2に対して要求する。
[0037]
 事象情報372は、先述のように、更新要求情報311に含まれる情報である。詳細は後述するが、事象情報372は、当該事象情報372を含む更新要求情報311を送信した携帯端末装置3において現在生じている事象を示す情報である。
[0038]
 操作部22は、サーバ装置2に対してオペレータ等が指示を入力するために操作するハードウェアである。操作部22としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。オペレータは、例えば、サーバ装置2においてデータベース211を作成するときなどに、操作部22を操作する。
[0039]
 表示部23は、各種データを表示することによりオペレータ等に対して当該各種データを出力する機能を有するハードウェアである。表示部23としては、例えば、ランプやLED、CRT、液晶ディスプレイや液晶パネルなどが該当する。
[0040]
 通信部24は、サーバ装置2が携帯端末装置3とデータ通信を行う機能を提供する。すなわち、サーバ装置2は、通信部24により、携帯端末装置3から送信された情報を受信する。サーバ装置2が携帯端末装置3から受信する情報としては、例えば、更新要求情報311がある。また、サーバ装置2は、通信部24により、携帯端末装置3に向けて情報を送信する。サーバ装置2が携帯端末装置3に向けて送信する情報としては、例えば、選択辞書情報212がある。通信部24は、選択辞書情報212を送信するときに、更新要求情報311を参照し、当該更新要求情報311に含まれている携帯端末装置3の識別子を取得する。そして通信部24は、取得した識別子により、当該更新要求情報311を送信した携帯端末装置3を特定する。
[0041]
 図4は、サーバ装置2が備える機能ブロックをデータの流れとともに示す図である。図4に示す選択部200は、CPU20がプログラム210に従って動作することにより実現される機能ブロックである。
[0042]
 選択部200は、更新要求情報311に含まれる事象情報372に応じて、記憶装置21に記憶されているデータベース211を検索する機能を有している。これにより、選択部200は、複数の音声辞書候補の中から1の音声辞書候補を選択する。また、選択部200は、選択した1の音声辞書候補を含む選択辞書情報212を作成する。
[0043]
 事象情報372は、携帯端末装置3において作成される情報である。そして、事象情報372は、すでに説明したように、更新要求情報311に含められることによって、当該携帯端末装置3からサーバ装置2に向けて送信される情報である。携帯端末装置3は、音声辞書を更新する必要が生じた場合、事象情報372を含む更新要求情報311を作成し、サーバ装置2に向けて送信する。すでに説明したように、事象情報372は、携帯端末装置3において、現在生じている事象として検出された事象を示す情報である。選択部200は、事象情報372に示される事象を検索キーとして、データベース211を検索し、当該事象に関連づけられている音声辞書候補を特定する機能を有している。
[0044]
 したがって、事象情報372に、現在生じている事象として、例えば「ショッピング」が示されている場合、図3に例示するデータベース211では、「ショッピング」に関連づけられている第1音声辞書が1の音声辞書候補として選択される。
[0045]
 すでに説明したように、選択部200は、選択した1の音声辞書候補を含む選択辞書情報212を作成する。したがって、第1音声辞書が選択された場合、選択部200によって作成される選択辞書情報212は、第1音声辞書を含む情報となる。作成された選択辞書情報212は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、通信部24により当該更新要求を行った携帯端末装置3に向けて送信される。
[0046]
 以上が、音声認識システム1が備えるサーバ装置2の構成および機能の説明である。次に、音声認識システム1が備える携帯端末装置3について説明する。
[0047]
 図5は、携帯端末装置3を示すブロック図である。携帯端末装置3は、CPU30、記憶装置31、操作部32、表示部33、通信部34およびスピーカ35を備えている。
[0048]
 CPU30は、記憶装置31に格納されているプログラム310を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU30は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、携帯端末装置3は、一般的なコンピュータとして構成されている。
[0049]
 また、CPU30は、動作モードとして、すべての機能を利用可能な通常動作モードと、機能の一部または全部が制限される省電力モードとを有している。省電力モードは、いわゆるスリープモードであり、CPU30の機能の一部または全部が制限される代わりに、CPU30における消費電力を抑制することができる動作モードである。
[0050]
 なお、省電力モードには、複数のモードが段階的に定義されていてもよい。また、以下の説明では、「CPU30が省電力モードで動作する」とは、CPU30が完全に停止する場合も含む意味として使用する。
[0051]
 記憶装置31は、携帯端末装置3において各種データを記憶する機能を提供する。記憶装置31としては、CPU30の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(PCカード、SDカード、USBメモリなど)等が該当する。図5においては、記憶装置31を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置31は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置31は、データを記憶する機能を有し、CPU30によってアクセスされる装置群の総称である。
[0052]
 また、現実のCPU30は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU30が備える記憶装置も、説明の都合上、記憶装置31に含めて説明する。すなわち、一時的にCPU30自体が記憶するデータも、記憶装置31が記憶するとして説明する。図5に示すように、記憶装置31は、プログラム310および更新要求情報311などを記憶するために使用される。
[0053]
 操作部32は、携帯端末装置3に対してユーザが指示を入力するために操作するハードウェアである。操作部32としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。
[0054]
 表示部33は、各種データを表示することによりユーザに対して当該各種データを出力する機能を有するハードウェアである。表示部33としては、例えば、ランプやLED、液晶ディスプレイや液晶パネルなどが該当する。
[0055]
 通信部34は、携帯端末装置3がサーバ装置2とデータ通信を行う機能を提供する。すなわち、携帯端末装置3は、通信部34により、サーバ装置2から送信された情報を受信する。携帯端末装置3がサーバ装置2から受信する情報としては、例えば、選択辞書情報212がある。また、携帯端末装置3は、通信部34により、サーバ装置2に向けて情報を送信する。携帯端末装置3がサーバ装置2に向けて送信する情報としては、例えば、更新要求情報311がある。
[0056]
 スピーカ35は、音声情報(一般に音声情報374とは異なるが、音声情報374を再生してもよい。)に基づいて、音声を出力する機能を有するハードウェアである。スピーカ35は、ユーザに対して、音声案内をしたり、音楽や放送番組、受話機能などを提供するために用いられる。
[0057]
 さらに、携帯端末装置3は、MPU36、記憶装置37、観測装置群38およびマイクロフォン39を備えている。
[0058]
 MPU36は、記憶装置37に格納されているプログラム370を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、MPU36は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。
[0059]
 また、MPU36は、動作時に消費する電力が少ない演算装置として構成されている。具体的には、CPU30を省電力モードで動作させつつMPU36を動作させた方が、CPU30が通常動作モードで動作する場合に比べて、携帯端末装置3における消費電力が少なくなるように設計されている。すなわち、MPU36は、携帯端末装置3におけるメインの演算装置であるCPU30に比べて処理能力の低い、いわゆる組み込み用途のLSIである。
[0060]
 記憶装置37は、携帯端末装置3において各種データを記憶する機能を提供する。言い換えれば、記憶装置37が、記憶装置31と同様に、携帯端末装置3において電子的に固定された情報を保存する。
[0061]
 記憶装置37としては、MPU36の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)等が該当する。図5においては、記憶装置37を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置37は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置37は、データを記憶する機能を有し、MPU36によってアクセスされる装置群の総称である。
[0062]
 また、現実のMPU36は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなMPU36が備える記憶装置も、説明の都合上、記憶装置37に含めて説明する。すなわち、一時的にMPU36自体が記憶するデータも、記憶装置37が記憶するとして説明する。図5に示すように、記憶装置37は、プログラム370、観測情報371、事象情報372、履歴情報373、音声情報374および選択辞書情報212などを記憶するために使用される。
[0063]
 観測装置群38は、周囲の環境を示す情報や携帯端末装置3の動き(携帯端末装置3を携帯するユーザの動き)に関する情報などを検出して、観測情報371を取得する複数の検出装置から構成される。観測装置群38としては、温度センサ、気圧センサ、湿度センサ、照度センサ、振動感知センサ、位置を特定するGPS、周囲の画像を取得する撮像装置、ジャイロセンサ、加速度センサ、磁気センサ、脈拍センサ、血圧センサなどが想定される。
[0064]
 また、ジャイロセンサ、加速度センサおよび磁気センサなどは、ユーザの動きに起因する物理量を観測情報371として取得する。ジャイロセンサや加速度センサ、磁気センサなどにより取得された情報を解析して、携帯端末装置3を所持しているユーザの姿勢や行動などを推定する手法は、従来の技術を適宜適用することができるため、ここでは詳細な説明を省略する。なお、後述するマイクロフォン39によって取得される音声情報374を観測情報371の一部とみなしてもよい。
[0065]
 観測装置群38は、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、観測情報371の取得が可能とされている。ただし、MPU36により、必要に応じて、観測装置群38のうちの一部の装置が停止されてもよい。すなわち、省電力モードの段階に応じて、観測装置群38を構成する装置が使い分けられてもよい。
[0066]
 マイクロフォン39は、周囲の音声を電気信号に変換し、音声情報374を取得する機能を有するハードウェアである。マイクロフォン39は、観測装置群38と同様に、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、音声情報374の取得が可能とされている。携帯端末装置3がマイクロフォン39を備えることにより、携帯端末装置3はユーザの発する音声(言語)を音声情報374に変換して、記憶装置37に記憶することが可能である。
[0067]
 図6は、携帯端末装置3が備える機能ブロックをデータの流れとともに示す図である。図6に示すインタフェース部360、事象検出部361および音声認識部362は、MPU36がプログラム370に従って動作することにより実現される機能ブロックである。
[0068]
 インタフェース部360は、CPU30とMPU36との間の信号の入出力を制御する機能を有する。インタフェース部360は、CPU30から転送される選択辞書情報212を記憶装置37に記憶させる。また、事象検出部361によって作成された事象情報372をCPU30に向けて転送する。さらに、音声認識部362の認識結果をCPU30に向けて転送する機能も有している。
[0069]
 また、インタフェース部360は、必要に応じて、省電力モードで動作しているCPU30の動作モードを通常動作モードに切り替える機能も有している。これにより、MPU36は、例えば、複雑な処理が必要になったときに、CPU30を通常動作モードに復帰させて処理させることができる。
[0070]
 事象検出部361は、観測装置群38により取得された観測情報371と履歴情報373とに基づいて、予め想定される複数の事象の中から現在生じている事象を検出する。事象検出部361は、特定の事象(現在生じている事象)を検出した場合には、当該事象を示す事象情報372を作成する。より詳細には、事象検出部361は、常時取得される観測情報371により、現在生じている事象を監視しつつ、現在生じている事象の変化を検出する。そして、事象の変化を検出したときには、新たに現在生じている事象となった事象を示す事象情報372を作成する。
[0071]
 また、事象検出部361は、履歴情報373を作成する機能も有している。履歴情報373とは、過去に、どのような観測情報371に基づいて、どの事象を検出したかといった情報である。履歴情報373の具体例としては、例えば、「日曜の朝にユーザはジョギングをした」といった情報や、「夕方の所定の時刻に料理をした」といった情報、あるいは、「所定の位置(お店の場所)では買い物をした」といった情報などである。これにより、ユーザの行動パターンなどに基づいて事象を検出することができるため、事象の検出精度が向上する。
[0072]
 なお、履歴情報373には、音声認識部362による認識率などを含めてもよい。このように構成することによって、事象情報372に基づいて選択された音声辞書候補(選択辞書情報212)の認識率をフィードバックすることができ、以後は、さらに適切な音声辞書候補が選択されることとなる。また、履歴情報373は、ユーザが操作部32を操作することによって入力された情報に基づいて作成されてもよい。
[0073]
 音声認識部362は、マイクロフォン39により取得された音声情報374と、記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する。音声認識部362による音声認識は、観測された音声(音声情報374)を、提供された音声辞書(選択辞書情報212)を用いて処理するものである。したがって、音声認識部362による音声認識の具体的な手法は、従来の技術を適宜採用することができるため、詳細な説明を省略する。
[0074]
 なお、音声認識部362による認識結果は、インタフェース部360を介して、CPU30に伝達されるものとして説明する。ただし、認識結果は、必ずしもCPU30に伝達されなければならないものではない。例えば、MPU36によってのみ処理される情報であってもよい。
[0075]
 以上が、音声認識システム1の構成および機能の説明である。次に、音声認識システム1を用いた音声認識方法について説明する。
[0076]
 図7は、サーバ装置2の動作を示す流れ図である。図7に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、サーバ装置2が実行する工程を示すものである。また、図7に示す各工程が開始されるまでに、オペレータは、予めデータベース211を作成し、記憶装置21に格納しておくものとする。すなわち、携帯端末装置3側で想定される複数の事象と、複数の音声辞書候補とを互いに関連づけて記憶装置21に記憶する工程は、すでに完了しているものとする。
[0077]
 サーバ装置2は、運用が開始されると、携帯端末装置3からの更新要求情報311を受信したか否かを監視する(ステップS1)。
[0078]
 サーバ装置2が更新要求情報311を受信すると(ステップS1においてYes。)、選択部200が受信された更新要求情報311に含まれる事象情報372に基づいてデータベース211を検索する。
[0079]
 すでに説明したように、更新要求情報311に含まれる事象情報372は、当該更新要求情報311を送信した携帯端末装置3において、「現在生じている事象」を示している。したがって、「選択部200が受信された更新要求情報311に含まれる事象情報372に基づいてデータベース211を検索する」とは、すなわち、「選択部200が携帯端末装置3において現在生じている事象を検索キーとしてデータベース211を検索する」ことに相当する。このようにして、選択部200は、携帯端末装置3において現在生じている事象に関連づけられている音声辞書候補をデータベース211から選択する(ステップS2)。
[0080]
 データベース211において各事象に関連づけられている音声辞書候補は、各事象に対応して最適化され、登録された音声辞書である。したがって、選択部200は、携帯端末装置3において現在生じている事象に関連づけられている音声辞書候補を選択することにより、現在生じている事象に最も適した音声辞書候補を選択することができる。例えば、現在生じている事象として、「ジョギング」が示されている場合、選択部200は、ジョギングしているユーザに適した音声辞書として作成されている第2音声辞書を選択することができる。
[0081]
 ステップS2を実行すると、選択部200は、選択した音声辞書候補と、選択に使用した事象情報372を含む更新要求情報311を識別するための識別子とを含む選択辞書情報212を作成する(ステップS3)。
[0082]
 このようにして、新たに選択辞書情報212が作成されると、通信部24は、選択辞書情報212に含まれる識別子に基づいて更新要求情報311を特定する。そして、通信部24は、特定した更新要求情報311を送信した携帯端末装置3を特定して、当該携帯端末装置3に向けて、当該更新要求情報311を送信する(ステップS4)。これにより、サーバ装置2は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、選択辞書情報212を送信する。
[0083]
 図8は、携帯端末装置3の動作を示す流れ図である。図8に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、携帯端末装置3が実行する工程を示すものである。また、図8に示す各工程が開始されるまでに、携帯端末装置3は、予め第n音声辞書を記憶装置37に選択辞書情報212として記憶しているものとする。すなわち、携帯端末装置3は、デフォルトの音声辞書(第n音声辞書)を記憶装置37に記憶する工程を、すでに完了しているものとする。
[0084]
 なお、図8には、CPU30を通常動作モードから省電力モードに切り替える工程を図示していない。このような動作モードの切り替えは、例えば、所定の期間、ユーザによる操作が検出されないときや、ユーザによる直接の指示(省電力モードへの切り替え指示)があったとき、あるいは、利用中のアプリケーションによって判断されたときなどに実行することができる。ただし、省電力モードへの切り替えのトリガとなるものは、これらに限定されるものではない。
[0085]
 携帯端末装置3は、電源が投入されると、所定の初期設定を実行した後、音声認識を実行することが可能な状態に遷移する。この状態を、以下、「運用開始状態」と称する。運用開始状態において、CPU30の動作モードは、通常動作モードまたは省電力モードである。また、運用開始状態において、携帯端末装置3は、ユーザによって携帯されているものとする。
[0086]
 運用開始状態において、携帯端末装置3は、観測装置群38により観測情報371を作成する(ステップS11)。携帯端末装置3は、ユーザの指示がなくても、周期的かつ継続的にステップS11を実行する。そして、携帯端末装置3は、ステップS11において作成した観測情報371を記憶装置37に格納する。
[0087]
 観測情報371が記憶装置37に格納されると、事象検出部361は、当該観測情報371と、履歴情報373とに基づいて、現在生じている事象を検出する。より詳細には、事象検出部361は、観測装置群38により取得された観測情報371を分析して状況を把握するとともに、履歴情報373に基づいてユーザの行動パターン等を参照することにより現在生じている事象を推定する。さらに、事象検出部361は、すでに記憶されている事象情報372と比較することにより、事象が変化したか否かを判定する(ステップS12)。
[0088]
 このように、携帯端末装置3は、運用開始状態において、常時、観測情報371の取得を行い、かつ、現在生じている事象に変化がないか否かを監視している。ここで、事象検出部361は、MPU36がプログラム370に従って動作することにより実現される機能ブロックであり、MPU36がステップS12の処理を実行する。したがって、通常動作モードのときは当然として、省電力モードにおいても、ステップS12の処理は実行される。さらに、ステップS12の処理に際して、ユーザからの特別な指示を必要としないため、ユーザが特に意識しなくても、ステップS12の処理は実行される。なお、事象情報372に示される事象の初期値は、「デフォルト」である。
[0089]
 事象に変化が生じており、ステップS12においてYesと判定すると、携帯端末装置3は、更新要求処理を実行する(ステップS13)。
[0090]
 図9は、携帯端末装置3が実行する更新要求処理を示す流れ図である。更新要求処理とは、携帯端末装置3が、サーバ装置2に対して、新しい音声辞書を送信するように要求する処理である。
[0091]
 更新要求処理が開始されると、事象検出部361は、検出した事象(新たに生じた事象)を示す新たな事象情報372を作成する(ステップS31)。また、事象検出部361は、新たに作成した事象情報372により、記憶装置37にすでに記憶されている事象情報372を更新する。
[0092]
 さらに、事象検出部361は、新たに作成した事象情報372(検出結果)や、当該事象情報372を作成する際に参照した観測情報371(検出結果の元となった情報)などに基づいて、履歴情報373を更新する(ステップS32)。これにより、過去における事象の検出結果などが蓄積される。
[0093]
 次に、インタフェース部360は、事象情報372が更新されたことを検出し、これをトリガとして、CPU30の動作モードが省電力モードであるか否かを判定する(ステップS33)。そして、動作モードが省電力モードの場合(ステップS33においてYes。)、動作モードを通常動作モードに切り替える(ステップS34)。一方、省電力モードでない場合(ステップS33においてNo。)、インタフェース部360は、ステップS34の処理をスキップする。
[0094]
 ステップS33およびS34の処理を、より具体的に説明する。事象情報372が更新され、当該事象情報372をCPU30に向けて送信する必要が生じたときに、インタフェース部360は、CPU30に向けて割り込み信号を通知する。MPU36(インタフェース部360)からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、厳密に言えば、実際のインタフェース部360は、ステップS33において、CPU30が省電力モードであるか否かについて判定するわけではない。
[0095]
 ステップS33およびS34が実行された後において、CPU30は必ず通常動作モードとなり、事象情報372を受け取れる状態となる。したがって、インタフェース部360は、新たに作成された事象情報372をCPU30に向けて転送する。
[0096]
 MPU36から事象情報372を受け取ると、CPU30は、当該事象情報372に基づいて、更新要求情報311を作成する(ステップS35)。更新要求情報311は、すでに説明したように、事象情報372および携帯端末装置3の識別子(例えば、ネットワークアドレスなど)を含む情報である。
[0097]
 更新要求情報311を作成すると、CPU30は、当該更新要求情報311をサーバ装置2に向けて送信するように通信部34を制御する。これにより、通信部34が、更新要求情報311をサーバ装置2に向けて送信する(ステップS36)。
[0098]
 ステップS36が実行され、通信部34が更新要求情報を送信すると、携帯端末装置3は、更新要求処理を終了して、図8に示す処理に戻る。すなわち、携帯端末装置3は、図8に示すステップS13を終了する。
[0099]
 図8に戻って、ステップS12においてNoと判定した場合(現在生じている事象に変化がない場合)、携帯端末装置3はステップS13をスキップする。したがって、現在生じている事象に変化が生じない限り、携帯端末装置3が更新要求処理(ステップS13)を実行することはなく、更新要求情報311がサーバ装置2に向けて送信されることもない。
[0100]
 運用開始状態において、携帯端末装置3は、マイクロフォン39により音声情報374を作成する(ステップS14)。ステップS14は、運用開始状態において、ユーザの指示がなくても、周期的かつ継続的に実行される。ステップS14において作成された音声情報374は、記憶装置37に格納される。
[0101]
 音声情報374が記憶装置37に格納されると、音声認識部362は、当該音声情報374と、選択辞書情報212とに基づいて、音声認識を実行し(ステップS15)、認識に成功したか否かを判定する(ステップS16)。
[0102]
 このように、携帯端末装置3では、ステップS14ないしS16における処理が、MPU36によって実現されており、CPU30が省電力モードであっても、実行することが可能である。すなわち、音声認識システム1は、消費電力を抑制しつつ、常時、音声認識を実行することができるように構成されている。
[0103]
 また、ステップS14ないしS16における処理は、携帯端末装置3の運用開始状態において、ユーザの特別な指示がなくても実行される処理として構成されている。したがって、ユーザは、特に意識することなく、音声認識を利用することができ、ユーザの負担が軽減される。
[0104]
 音声認識部362が認識に成功した場合(ステップS16においてYes。)、MPU36は、認識結果を実行する(ステップS17)。
[0105]
 ステップS17における認識結果の実行とは、MPU36がCPU30に向けて認識結果を転送することである。具体的には、まず、音声認識部362が、当該認識結果をインタフェース部360に伝達する。次に、インタフェース部360が、音声認識部362から伝達された認識結果をCPU30に向けて転送する。
[0106]
 なお、認識結果をCPU30に向けて転送するときに、CPU30が省電力モードであった場合、インタフェース部360は、CPU30の動作モードを通常動作モードに切り替えてから、当該認識結果を転送する。
[0107]
 現在生じている事象として「ジョギング」が検出されており、第2音声辞書候補が選択辞書情報212として記憶装置37に記憶されている状態を例に、CPU30が実行する処理を説明する。このような状態で、例えば、ユーザが「脈拍」と発声すると、音声認識部362が第2音声辞書候補を用いて音声認識を行い、「脈拍」という言葉(テキスト情報)を認識結果としてCPU30に伝達する。
[0108]
 MPU36から認識結果を受け取ったCPU30は、当該認識結果に応じた処理を実行する。
[0109]
 上記に示す例では、CPU30は、ユーザの「脈拍」という発声に対する処理として、ユーザの脈拍数を計測して音声案内するようにスピーカ35を制御する。これにより、スピーカ35から、例えば、「120」などの音声が再生される。したがって、ユーザは、携帯端末装置3を目視して閲覧し、操作しなくても、携帯端末装置3から所望の情報(脈拍)を得ることができ、当該携帯端末装置3を使用することができる。
[0110]
 図8に示す運用開始状態において、サーバ装置2から送信された選択辞書情報212を通信部34が受信すると(ステップS18においてYes。)、携帯端末装置3は、動作モードが省電力モードであるか否かを判定する(ステップS19)。そして、動作モードが省電力モードの場合(ステップS19においてYes。)、動作モードを通常動作モードに切り替える(ステップS20)。一方、省電力モードでない場合(ステップS19においてNo。)、携帯端末装置3は、ステップS20の処理をスキップする。
[0111]
 ステップS18ないしS20の処理を、より具体的に説明する。通信部34は、運用開始状態において、ネットワークを監視しており、当該ネットワークを介して携帯端末装置3に着信があったか否かを監視している。そして、通信部34が着信を検出した場合には、通信部34からCPU30に向けて割り込み信号が通知される。したがって、実際の通信部34は、ステップS18において、受信された情報が選択辞書情報212であるか否かについて判定するわけではない。
[0112]
 通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、CPU30は、ステップS19において省電力モードか否かを判定するわけではない。
[0113]
 ステップS19においてNoの場合、または、ステップS20が実行された場合、CPU30は、通信部34が受信した選択辞書情報212をMPU36(インタフェース部360)に向けて転送する。CPU30から選択辞書情報212が転送されると、インタフェース部360は、記憶装置37に、当該選択辞書情報212を記憶させる(ステップS21)。これにより、携帯端末装置3において、すでに記憶されていた選択辞書情報212が、新たに受信された選択辞書情報212に更新される。
[0114]
 すでに説明したように、初期状態において、携帯端末装置3の記憶装置37には、第n音声辞書が選択辞書情報212として記憶されている。この状態において、例えば、事象「ジョギング」に関連づけられている第2音声辞書が選択辞書情報212として受信されると、ステップS21が実行されることにより、第n音声辞書が第2音声辞書に更新されることになる。
[0115]
 例えば、ジョギング中のユーザが使用する言葉(携帯端末装置3に対して入力する言葉)は、ジョギングに関連する語彙に限られると予想できる。したがって、現在生じている事象として「ジョギング」が検出されたときに、ジョギングに対応して語彙が取捨選択された第2音声辞書を音声認識に用いることにより、音声認識の精度を低下させることなく、通常の音声辞書に比べて情報容量(サイズ)を減らした音声辞書を使用することができる。
[0116]
 このように、音声認識システム1は、音声辞書のサイズが小さいため、応答性能がよいという利点がある。すでに説明したように、音声認識システム1では、携帯端末装置3において新しい事象が検出されるたびに、それに応じた音声辞書がサーバ装置2から携帯端末装置3にダウンロードされる。もし、ダウンロードする音声辞書のサイズが大きければ、ダウンロードに時間を要し、音声辞書を準備するまでの時間が増大することになり、応答性能が低下する。しかし、音声認識システム1は、サイズの小さい音声辞書(選択辞書情報212)をダウンロードするため、ダウンロードに要する時間は短く、応答性能が犠牲にならずに済む。
[0117]
 また、音声辞書のサイズが小さいため、記憶装置37の記憶容量が小さくて済むとともに、MPU36のような比較的処理能力の低い演算装置でも音声認識を実行することができる。したがって、システム全体として、コストを抑制することができる。
[0118]
 また、特開2010-191223号公報に記載されている技術では、作業者(ユーザ)は、「会計処理を行います」というように、これからの作業の内容などを示す音声を入力しなければ、音声辞書の切り替えが行われない。すなわち、音声辞書を切り替えるためのトリガは、ユーザ自身が、意識的に確実に実行しなければならない。しかし、音声認識システム1は、観測装置群38によって、継続的に、かつ、ユーザに意識させることなく取得される観測情報371に基づいて現在生じている事象を自動的に検出し、これをトリガとして更新要求(更新要求処理)を行う。したがって、ユーザは、音声辞書を切り替えるためのトリガを与えることを特に意識する必要がなく、ユーザの負担が軽減される。
[0119]
 また、従来の技術では、音声辞書の選択は、位置情報に基づいて行われるため、ユーザは、目的の音声辞書が選択される位置でしかトリガを与えることができない。したがって、従来の技術は、ユーザが、自身の存在位置と音声辞書との対応関係をよく理解していなければ、逆に、不適切な音声辞書を選択するおそれがある。しかし、音声認識システム1は、多様な観測情報371(および履歴情報373)に基づいて現在生じている事象を検出するため、ユーザに頼ることなく、最適な音声辞書を選択することができる。
[0120]
 また、従来の技術では、音声辞書の選択が位置情報のみに基づいて行われるため、位置に関係のない事象に基づいて音声辞書を最適化することができず、汎用性が低いとともに、語彙の絞り込みも不十分という問題がある。しかし、音声認識システム1は、多様な観測情報371に基づいて現在生じている事象を検出するため、より状況に応じた音声辞書を選択することが可能となる。
[0121]
 以上のように、音声を音声辞書により認識する音声認識システム1は、通常動作モードと通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能なCPU30と、予め想定される複数の事象と音声辞書の候補となる複数の音声辞書候補とを関連づけるデータベース211を記憶する記憶装置21と、事象を検出するための物理量を観測情報371として取得する観測装置群38と、音声を音声情報374として取得するマイクロフォン39と、選択辞書情報212を記憶する記憶装置37と、記憶装置37にアクセスするMPU36とを備えている。そして、MPU36は、観測装置群38により取得された観測情報371に基づいて、予め想定される複数の事象の中から現在生じている事象を検出する事象検出部361と、マイクロフォン39により取得された音声情報374と記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する音声認識部362とを備える。また、音声認識システム1は、事象検出部361により現在生じている事象として検出された事象に応じて、記憶装置21に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択部200をさらに備え、選択部200により選択された選択辞書情報212を音声辞書として記憶装置37に記憶させる。さらに、音声認識システム1では、CPU30を省電力モードで動作させつつMPU36を動作させたときの消費電力が、CPU30を通常動作モードで動作させたときの消費電力よりも小さくなるように設計されている。これにより、消費電力の低いMPU36に音声認識を実行させることにより、消費電力を抑制することができる。また、サイズの小さい選択辞書情報212を音声認識に使用したとしても、選択辞書情報212が事象に応じて最適化されているため、認識率を低下させることがない。
[0122]
 また、観測装置群38は、ユーザの動きに起因する物理量を観測情報371として取得し、事象検出部361は、現在生じている事象として、ユーザの行動を推定する。ユーザの発する音声(言葉)は、ユーザの行動との関連性が高い。したがって、ユーザの行動を推定することで、より最適な音声辞書を選択することができる。すなわち、音声認識の精度が向上する。
[0123]
 また、事象検出部361は、ユーザの姿勢を推定することにより、当該ユーザの行動を推定する。ユーザの行動は、ユーザの姿勢との関連性が高いため、ユーザの行動推定精度が向上する。
[0124]
 また、複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、認識精度を低下させることなく、音声辞書(選択辞書情報212)のサイズを抑制することができる。
[0125]
 また、音声認識システム1を電力の自給能力の低い携帯端末装置3に適用することにより、消費電力の抑制効果がより顕著となる。
[0126]
 また、記憶装置37は、過去の履歴情報373を記憶しており、事象検出部361は、記憶装置37に記憶された履歴情報373に基づいて、現在生じている事象を推定する。したがって、事象の推定精度が向上する。
[0127]
 なお、上記実施の形態では、CPU30を省電力モードから通常動作モードに切り替える工程として、ステップS20およびステップS34のみを説明した。ただし、CPU30を通常動作モードに切り替えるトリガとなるものは、これらの工程を実行する条件となるものに限定されるわけではない。
[0128]
 以上、本発明の実施の形態について説明してきたが、本発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
[0129]
 例えば、上記実施の形態に示した各工程は、あくまでも例示であって、上記に示した順序や内容に限定されるものではない。すなわち、同様の効果が得られるならば、適宜、順序や内容が変更されてもよい。例えば、事象情報372を更新する工程(ステップS31)と、履歴情報373を更新する工程(ステップS32)との順序を入れ替えても、本発明を実現することができる。
[0130]
 また、上記実施の形態に示した選択部200は、CPU20がプログラム210に従って動作することにより、ソフトウェア的に実現されると説明した。また、インタフェース部360や事象検出部361、および、音声認識部362は、MPU36がプログラム370に従って動作することにより、ソフトウェア的に実現されると説明した。しかし、これらの機能ブロックの一部または全部を専用の論理回路で構成し、ハードウェア的に実現してもよい。
[0131]
 また、上記実施の形態では、サーバ装置2にデータベース211が記憶され、サーバ装置2が備えるCPU20(選択部200)が音声辞書候補の選択を行う例で説明した。しかし、例えば、データベース211に相当する情報を携帯端末装置3の記憶装置31に記憶しておき、CPU30が音声辞書候補を選択してMPU36に伝達するように構成してもよい。

請求の範囲

[請求項1]
 音声を音声辞書により認識する音声認識システムであって、
 通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能な第1演算装置と、
 予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて記憶する第1記憶装置と、
 事象を検出するための物理量を観測情報として取得する観測手段と、
 前記音声を音声情報として取得するマイクロフォンと、
 前記音声辞書を記憶する第2記憶装置と、
 前記第2記憶装置にアクセスする第2演算装置と、
を備え、
 前記第2演算装置は、
 前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を検出する事象検出手段と、
 前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、音声認識を実行する音声認識手段と、
を備え、
 前記事象検出手段により現在生じている事象として検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択手段をさらに備え、
 前記選択手段により選択された1の音声辞書候補を前記音声辞書として前記第2記憶装置に記憶させ、
 前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい音声認識システム。
[請求項2]
 請求項1に記載の音声認識システムであって、
 前記観測手段は、ユーザの動きに起因する物理量を観測情報として取得し、
 前記事象検出手段は、現在生じている事象として、前記ユーザの行動を推定する音声認識システム。
[請求項3]
 請求項2に記載の音声認識システムであって、
 前記事象検出手段は、前記ユーザの姿勢を推定することにより、前記ユーザの行動を推定する音声認識システム。
[請求項4]
 請求項1ないし3のいずれかに記載の音声認識システムであって、
 前記複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている音声認識システム。
[請求項5]
 請求項1ないし4のいずれかに記載の音声認識システムであって、
 ユーザにより携帯され、前記第1演算装置、前記第2演算装置および前記第2記憶装置を備える携帯端末装置と、
 前記携帯端末装置との間でデータ通信が可能な状態で接続され、前記第1記憶装置および前記選択手段を備えるサーバ装置と、
を備える音声認識システム。
[請求項6]
 請求項1ないし5のいずれかに記載の音声認識システムであって、
 前記第2記憶装置は、過去の履歴情報を記憶しており、
 前記事象検出手段は、前記第2記憶装置に記憶された履歴情報に基づいて、現在生じている事象を推定する音声認識システム。
[請求項7]
 音声を音声辞書により認識する音声認識方法であって、
 予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて第1記憶装置に記憶する工程と、
 通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で第1演算装置の動作モードを切り替える工程と、
 事象を検出するための物理量を観測手段により観測情報として取得する工程と、
 前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を、第2演算装置により検出する工程と、
 現在生じている事象として前記第2演算装置により検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する工程と、
 選択された前記1の音声辞書候補を前記音声辞書として、前記第2演算装置によりアクセスされる第2記憶装置に記憶させる工程と、
 前記音声をマイクロフォンにより音声情報として取得する工程と、
 前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、前記第2演算装置により音声認識を実行する工程と、
を有し、
 前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい音声認識方法。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]