Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020116193 - INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM

Document

明 細 書

発明の名称 情報処理装置、情報処理方法、およびプログラム

技術分野

0001  

背景技術

0002   0003  

先行技術文献

特許文献

0004  

発明の概要

発明が解決しようとする課題

0005   0006   0007  

課題を解決するための手段

0008   0009   0010   0011  

図面の簡単な説明

0012  

発明を実施するための形態

0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177   0178   0179   0180   0181   0182   0183   0184   0185   0186   0187   0188   0189   0190   0191   0192   0193   0194   0195   0196   0197   0198  

符号の説明

0199  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16  

明 細 書

発明の名称 : 情報処理装置、情報処理方法、およびプログラム

技術分野

[0001]
 本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザに対してより適切な応答を提示することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

背景技術

[0002]
 音声対話システムにおいては、ユーザの依頼発話(意図)に応じた応答がユーザに提示される。
[0003]
 例えば、特許文献1には、音声認識の確信度に応じて応答を切り替える音声対話システムが開示されている。

先行技術文献

特許文献

[0004]
特許文献1 : 特開2011-54088号公報

発明の概要

発明が解決しようとする課題

[0005]
 上述したような音声対話システムにおいては、コンテクストがあって初めて、ユーザの求める依頼の範囲が特定されるが、言語には曖昧性があるため、システム側がユーザの意図を適切に理解することは難しかった。
[0006]
 特に、ユーザの意思決定プロセスの初期段階では、ユーザの発話を幅広く解釈して応答を提示する必要がある一方、後段になるほど条件が絞り込まれることから、ユーザの発話を確実に識別して応答を提示する必要がある。
[0007]
 本技術は、このような状況に鑑みてなされたものであり、ユーザに対してより適切な応答を提示することができるようにするものである。

課題を解決するための手段

[0008]
 本技術の情報処理装置は、ユーザの意思決定に関するフェーズを推定するフェーズ推定部と、推定された前記フェーズに応じた、前記ユーザの発話に対する応答を生成する応答生成部とを備える情報処理装置である。
[0009]
 本技術の情報処理方法は、情報処理装置が、ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、生成された前記応答に基づいた出力情報を生成する情報処理方法である。
[0010]
 本技術のプログラムは、コンピュータに、ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、生成された前記応答に基づいた出力情報を生成する処理を実行させるためのプログラムである。
[0011]
 本技術においては、ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答が生成され、生成された前記応答に基づいた出力情報が生成される。

図面の簡単な説明

[0012]
[図1] 本技術を適用した音声対話システムの概要について説明する図である。
[図2] 意思決定プロセスに応じた情報量について説明する図である。
[図3] フェーズに応じた応答提示の例を示す図である。
[図4] 音声対話システムの構成例を示すブロック図である。
[図5] ホームエージェントのハードウェア構成例を示すブロック図である。
[図6] ホームエージェントの機能構成例を示すブロック図である。
[図7] 応答提示処理の流れについて説明するフローチャートである。
[図8] 識別問題におけるレベル設定について説明する図である。
[図9] ユーザの発話から応答提示までの流れについて説明する図である。
[図10] ユーザの発話から応答提示までの流れについて説明する図である。
[図11] 出力情報の表示例を示す図である。
[図12] 音声対話システムの構成に応じたリクエストの例を示す図である。
[図13] ニューラルネットワークを用いたフェーズ推定について説明する図である。
[図14] ニューラルネットワークを用いたフェーズ推定について説明する図である。
[図15] クラウドサーバの機能構成例を示すブロック図である。
[図16] コンピュータの構成例を示すブロック図である。

発明を実施するための形態

[0013]
 以下、本技術を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
[0014]
 1.音声対話システムの概要と構成
 2.ホームエージェントの構成と動作
 3.具体例・変形例
 4.ニューラルネットワークを用いたフェーズ推定
 5.クラウドコンピューティングへの適用
 6.コンピュータの構成
[0015]
<1.音声対話システムの概要と構成>
(音声対話システムの概要)
 図1は、本技術を適用した音声対話システムの概要を示す図である。
[0016]
 図1には、ユーザ10と、本技術を適用した情報処理装置としての、ユーザ10の発話に対して応答を提示するホームエージェント20が示されている。ホームエージェント20は、スマートスピーカと呼ばれる、対話型の音声アシスタントデバイスとして構成され、簡易的な表示機能を備えていてもよい。なお、ホームエージェント20は、スマートスピーカに優れた標記機能を備えたスマートディスプレイとして構成されてもよい。ユーザ10は、ホームエージェント20と対話することで様々な情報を取得することができる。
[0017]
 図1の例では、ユーザ10が「週末に横浜で外食したい」と発話している。これに対して、ホームエージェント20は、ユーザ10の発話を認識し、意味解析を行うことで、横浜駅周辺に「イタリアン○○」、「○○○亭」、「横浜○○○○○」の3つの飲食店が有る旨の応答を生成し、音声出力と表示により提示している。
[0018]
 さらに、ホームエージェント20は、ユーザ10の意思決定プロセスを推定することで、ユーザ10の発話の解釈や、発話に対して提示する応答を変化させることができる。
[0019]
 具体的には、ユーザ10が条件や属性を吟味している状態では、ホームエージェント20は、ユーザ10の発話を幅広く解釈し、拡散的な情報を提示することで、ユーザ10が様々な側面から検討できるようにする。言い換えると、幅広い条件を提示することで、ユーザ10が、それまで気づかなかった条件に気づく可能性が高くなるというメリットが生まれる。また、ユーザ10が条件を絞り込んでいる状態では、ホームエージェント20は、ユーザ10の発話を確実に識別し、絞り込んだ情報を提示することで、ユーザ10の意思決定を促進できるようにする。
[0020]
 このような、目標が不明確な情報の探索において、条件を絞り込むことで目標を明確化するプロセスは、斎藤 真里、大村 和典、"目標が不明確な情報探索行動の認知モデルと探索目標の構造化プロセス,"<URL:http://www.interaction-ipsj.org/archives/paper1997/pdf1997/paper97-049.pdf>に開示されている。
[0021]
 また、Mari S., Kazunori O., SIGIR '98, Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, Pages 155-163, "A cognitive model for searching for III-defined targets on the Web: the relationship between search strategies and user satisfaction"には、絞り込みの条件の吟味を十分に行うことで、ユーザの満足度を向上するという結果について開示されている。
[0022]
 すなわち、目標が不明確な情報の検索において、絞り込みの条件の吟味を十分行うことで、ユーザに対してより適切な情報が提示されるといえる。
[0023]
 例えば、図2に示されるように、ユーザ10が「アジアの観光地教えて」、「食べ物がおいしいところにして」、「子供が楽しめるところ」などと発話している段階では、条件自体が不明確であるため、意思決定プロセスは拡散状態にあると推定される。このとき、ユーザ10には、拡散的な情報を提示する必要があることから、必要な情報量(情報の検索範囲)は大きく(広く)なる。
[0024]
 ユーザ10が「パリでルーブルに近い観光地教えて」、「三ツ星レストランでパリから30分以内で探して」、「大人2人で30万円以内のツアー」などと発話している段階では、条件が明確化されてきているため、意思決定プロセスは収束状態にあると推定される。このとき、ユーザ10には、絞り込んだ情報を提示する必要があることから、必要な情報量(情報の検索範囲)は小さく(狭く)なる。
[0025]
 以下においては、拡散状態にある意思決定プロセス(フェーズ)を拡散フェーズといい、収束状態にある意思決定プロセス(フェーズ)を収束フェーズという。
[0026]
(フェーズに応じた応答提示の例)
 図3は、フェーズに応じた応答提示の例を示す図である。
[0027]
 図3の例では、Step1からStep6の各Stepにおいて、2人のユーザA,Bの発話(対話)に対してフェーズが推定され、推定されたフェーズに応じた応答が提示される。
[0028]
 Step1においては、ユーザAが「週末に横浜で外食したい」と発話している。ここでは、対話の開始直後であるので、フェーズは拡散フェーズであると推定される。また、発話自体が、ホームエージェント20(音声対話システム)に対する依頼であるか否か分からないので、幅広く情報が提示される。例えば、横浜周辺のレストラン情報が検索され、提示される。
[0029]
 Step2においては、ユーザBが、Step1でのユーザAの発話に対して、「フレンチはどうかなあ」と発話している。この段階でも、発話自体が依頼であるか否か分からないので、引き続き幅広く情報が提示される。例えば、フランス料理に加え、和食や中華などの店の情報が検索され、提示される。
[0030]
 Step3においては、ユーザAが、Step2でのユーザBの発話に対して、「いいね、カジュアルな店がいいなぁ」と発話している。ここでは、2人の意見が合ったので、フェーズはやや収束フェーズへ遷移したと推定される。Step2からのコンテクストが引き継がれたと解釈され、「フレンチ&カジュアル」の情報が優先されつつ、発話自体が依頼であるか否か分からないので、やや幅広く情報が提示される。例えば、フレンチ(フランス料理)のカジュアル系の店に加え、高級店の情報が検索され、提示される。
[0031]
 Step4においては、ユーザBが、Step3で提示された情報に対して、「もう少し高めの店を探して」と発話している。ここでは、2人の意見が合わず、フェーズは拡散フェーズへ戻ったと推定される。発話自体は明確な依頼であるが、コンテクストは引き継がれず、別のジャンルの高級店の情報が提示される。例えば、フレンチ(フランス料理)の高級店に加え、別のジャンルの高級店の情報が検索され、提示される。
[0032]
 Step5においては、ユーザAが、Step4でのユーザBの発話に対して、「その方がいいね。じゃあ、口コミ見せて」と発話している。ここでは、2人の意見が合ったので、フェーズは収束フェーズへ遷移したと推定される。コンテクストは引き継がれ、依頼発話に従って、フレンチ(フランス料理)の高級店の口コミ情報のみが検索され、提示される。
[0033]
 Step6においては、ユーザBが、Step5で提示された情報に対して、「どこも外観がおしゃれだね」と発話している。ここでは、フェーズはかなり収束フェーズ側へ遷移しているので、明確な依頼でない発話に対して検索は実行されない(「外観がおしゃれ」という条件だけでは、情報は絞り込まれない)。
[0034]
 このようにして、本技術を適用した音声対話システムにおいては、ユーザ10の意思決定プロセス(フェーズ)が推定され、推定されたフェーズに応じた情報が検索される。
[0035]
(音声対話システムの構成)
 図4は、上述した音声対話システムの構成例を示すブロック図である。
[0036]
 図4の音声対話システムは、ホームエージェント20と情報提供サーバ30から構成される。ホームエージェント20と情報提供サーバ30とは、インターネットなどのネットワークNWを介して相互に接続されている。
[0037]
 ホームエージェント20は、ユーザ10の発話に基づいたリクエストを、情報提供サーバ30に送信する。
[0038]
 情報提供サーバ30は、膨大な情報を有するデータベースと連携して、ホームエージェント20に種々の情報を提供する。情報提供サーバ30は、ホームエージェント20からのリクエストに応じた検索を実行し、その検索結果をホームエージェント20に送信する。
[0039]
 ホームエージェント20は、情報提供サーバ30からの検索結果に基づいて、ユーザ10の発話に対する応答を生成し、ユーザ10に提示する。
[0040]
 以下においては、上述した音声対話システムを実現するホームエージェント20の詳細について説明する。
[0041]
<2.ホームエージェントの構成と動作>
(ホームエージェントのハードウェア構成例)
 図5は、本技術を適用したホームエージェント20のハードウェア構成例を示すブロック図である。
[0042]
 CPU(Central Processing Unit)51,ROM(Read Only Memory)52,RAM(Random Access Memory)53は、バス54により相互に接続される。
[0043]
 バス54には、カメラ55、マイクロホン(以下、マイクという)56、センサ57、スピーカ58、ディスプレイ59、入力部60、記憶部61、および通信部62が接続される。
[0044]
 カメラ55は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサなどの固体撮像素子を備え、ユーザ10やその周囲環境を撮像することで、画像を取得する。
[0045]
 マイク56は、ユーザ10の発話などの音声を取得する。
[0046]
 センサ57は、人感センサやバイタルセンサなどの各種のセンサにより構成される。例えば、センサ57は、人物(ユーザ10)の存在の有無や、その人物の脈拍や呼吸などの生体情報を検知する。
[0047]
 スピーカ58は、音声(合成音声)を出力する。
[0048]
 ディスプレイ59は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。
[0049]
 入力部60は、ディスプレイ59に重ねて設けられたタッチパネルや、ホームエージェント20の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザ10による操作を検出し、操作の内容を表す情報を出力する。
[0050]
 記憶部61は、不揮発性のメモリなどにより構成される。記憶部61は、CPU51が実行するプログラムの他に、音声合成用のデータなどの各種のデータを記憶する。
[0051]
 通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、無線や有線による通信を外部の装置との間で行う。
[0052]
(ホームエージェントの機能構成例)
 図6は、ホームエージェント20の機能構成例を示すブロック図である。
[0053]
 図6に示されるホームエージェント20の機能ブロックのうちの一部は、図5のCPU51により所定のプログラムが実行されることによって実現される。
[0054]
 ホームエージェント20は、音声取得部71、撮像部72、センシング部73、音声認識部74、意味解析部75、画像解析部76、データ解析部77、記憶部78、フェーズ推定部79、応答生成部80、出力生成部81、提示制御部82、音声出力部83、および表示部84から構成される。
[0055]
 音声取得部71は、図5のマイク56に対応し、ユーザ10の発話(発話音声)を取得する。取得された発話音声(音声データ)は、音声認識部74に供給される。
[0056]
 撮像部72は、図5のカメラ55に対応し、ユーザ10を撮像する。撮像により得られた画像(画像データ)は、画像解析部76に供給される。
[0057]
 センシング部73は、図5のセンサ57に対応し、ユーザ10の周囲の環境においてセンシングを行う。センシングにより得られたセンシングデータは、データ解析部77に供給される。
[0058]
 音声認識部74は、音声取得部71からの音声データに対して、図示せぬ音声認識エンジンを用いることにより音声認識を行う。音声認識により得られた文字列は、意味解析部75に供給される。
[0059]
 意味解析部75は、音声認識部74からの文字列でなる文章に対して、自然言語処理、具体的には意味解析を行う。意味解析により、ユーザ10の発話内容(意図やコンテクスト(対話文脈)、固有名詞など)が特定される。意味解析の結果は、フェーズ推定部79と応答生成部80に供給される。
[0060]
 画像解析部76は、撮像部72からの画像データに対して、画像解析を行う。記憶部78に記憶されているユーザ情報を用いた顔認証により、例えばユーザ10のプロファイルが特定される。画像解析の結果は、フェーズ推定部79に供給される。
[0061]
 データ解析部77は、センシング部73からのセンシングデータに対して、データ解析を行う。記憶部78に記憶されている情報を用いたデータ解析により、例えばユーザ10の状態が特定される。データ解析の結果は、フェーズ推定部79に供給される。
[0062]
 記憶部78は、図5の記憶部61に対応し、ユーザ情報などの各種のデータを記憶する。
[0063]
 フェーズ推定部79は、意味解析部75からの意味解析の結果、画像解析部76からの画像解析の結果、そしてデータ解析部77からのデータ解析の結果に基づいて、ユーザ10のフェーズ(意思決定プロセス)を推定する。推定されたフェーズを表す情報は、応答生成部80と出力生成部81に供給される。
[0064]
 応答生成部80は、意味解析部75からの意味解析の結果と、フェーズ推定部79からの情報に基づいて、推定されたフェーズに応じた、ユーザ10の発話に対する応答を生成する。具体的には、応答生成部80は、推定されたフェーズに応じて、ユーザ10の発話に基づいたクエリを生成し、通信部62(図5)を介して情報提供サーバ30に送信する。応答生成部80は、送信したクエリに基づいた検索結果を、情報提供サーバ30から通信部62(図5)を介して受信する。これにより、応答生成部80は、ユーザ10の発話に対する応答を生成する。生成された応答は、出力生成部81に供給される。
[0065]
 出力生成部81は、応答生成部80からの応答と、フェーズ推定部79からの情報に基づいて、ユーザ10に提示するための出力情報を生成する。生成された出力情報は、提示制御部82に供給される。
[0066]
 提示制御部82は、出力生成部81からの出力情報の提示を制御する。出力情報は、提示部として構成される音声出力部83と表示部84に、音声出力と表示により提示される。
[0067]
 音声出力部83は、図5のスピーカ58に対応し、提示制御部82の制御により、出力情報を音声により出力する。
[0068]
 表示部84は、図5のディスプレイ59に対応し、提示制御部82の制御により、出力情報を表示する。
[0069]
(応答提示処理の流れ)
 次に、図7のフローチャートを参照して、ホームエージェント20(音声対話システム)による応答提示処理の流れについて説明する。
[0070]
 ステップS11において、音声取得部71、撮像部72、およびセンシング部73はそれぞれ、ユーザの発話、画像、およびセンシングデータを取得する。
[0071]
 ステップS12において、音声認識部74は、ユーザの発話に対して音声認識を行い、意味解析部75は、意味解析を行う。
[0072]
 ステップS13において、画像解析部76とデータ解析部77は、ユーザの画像とセンシングデータに基づいて、ユーザ認識と状況認識を行う。
[0073]
 例えば、画像解析部76は、撮像部72からの画像データと、記憶部78に記憶されているユーザ情報を用いて、ユーザのプロファイルを取得する。ユーザのプロファイルには、ユーザの行動履歴として、例えばレストランの予約履歴や利用履歴などが含まれる。
[0074]
 また、データ解析部77は、センシング部73からのセンシングデータと、記憶部78に記憶されているユーザ情報を用いて、ユーザの状態を取得する。ユーザの状態には、ユーザの対話相手の有無やユーザの周囲環境、ユーザの視線の向きなどが含まれる。
[0075]
 ステップS14において、フェーズ推定部79は、意味解析部75、画像解析部76、データ解析部77それぞれからの、ユーザの発話とコンテクスト(意味解析の結果)、ユーザのプロファイル、ユーザの状態の少なくともいずれかに基づいてフェーズを推定する。
[0076]
 例えば、複数人のユーザ同士で意見が合わない場合や、発話の中で新しい条件や属性が追加されていったり、条件の変更頻度が高いような場合には、拡散フェーズであると推定される。一方、複数人のユーザ同士で意見が一致する場合や、発話の中で新しい条件や属性が追加されなくなったり、条件の変更頻度が低いような場合には、収束フェーズであると推定される。
[0077]
 また、検索の条件として、OR検索が多い場合や、検索結果上位ではない情報が参照される(候補となる)ような場合には、拡散フェーズであると推定される。一方、検索の条件として、AND検索が多い場合や、検索結果上位の情報が参照されるような場合には、収束フェーズであると推定される。
[0078]
 さらに、雑談が多い場合、発話の速さが遅い(間が空く、考え込んでいる)場合などには、拡散フェーズであると推定され、雑談が少ない場合、発話の速さが早い場合などには、収束フェーズであると推定される。
[0079]
 ステップS15において、応答生成部80は、フェーズ推定部79により推定されたフェーズに応じて、ユーザの発話に基づいたクエリを生成する。
[0080]
 具体的には、応答生成部80は、推定されたフェーズに応じて、ユーザの発話の解釈を変化させることで、その解釈の結果に基づいたクエリを生成する。
[0081]
 例えば、応答生成部80は、フェーズに応じて、音声認識の不鮮明な部分を確定する範囲を変化させる。具体的には、拡散フェーズであると推定された場合には、Recallを重視し、考え得る候補として広く認識されるようにする。一方、収束フェーズであると推定された場合には、Precisionを重視し、確信度の高い候補に絞り込まれて認識されるようにする。
[0082]
 また、応答生成部80は、フェーズに応じて、意味解析の結果として発話が依頼であるか否か分からない場合の動作を変化させる。具体的には、拡散フェーズであると推定された場合には、依頼であるか否かが不明な発話も受け付けられるようにする。一方、収束フェーズであると推定された場合には、明確に依頼である発話のみ受け付けられるようにする。
[0083]
 さらに、応答生成部80は、フェーズに応じて、ホームエージェント20への発話であるか、ユーザ同士の対話であるか否か分からない場合の動作を変化させる。具体的には、拡散フェーズであると推定された場合には、なるべく発話を拾って関連のある情報が検索されるようにする。一方、収束フェーズであると推定された場合には、明らかにホームエージェント20への発話であるときのみ情報が検索されるようにする。
[0084]
 また、応答生成部80は、フェーズに応じて、コンテクストを引き継ぐか否かを決定する。具体的には、拡散フェーズであると推定された場合には、コンテクストを引き継ぐことで、引き継がれた条件が優先されるようにしつつ、引き継がれた条件とは別の情報や補足的な情報が検索される(前の発話内容とAND検索される)ようにする。一方、収束フェーズであると推定された場合には、コンテクストを引き継ぐことで、引き継がれた条件のみに従って情報が検索され、その検索結果が表示されるようにする。
[0085]
 図8は、上述したような識別問題におけるレベル設定について説明する図である。
[0086]
 図8のケースAは、DomainAを識別対象として識別を行う例を示している。
[0087]
 ケースAの例では、Precisionを重視する(Sureな識別を行う)レベルの境界線と、Recallを重視する(可能性がある部分を拾う識別を行う)レベルの境界線が3段階で設定されている。ケースAの例においては、Precision重視の収束フェーズではもちろん、Recall重視の拡散フェーズであっても、DomainBの要素は識別対象外となる。
[0088]
 図8のケースBは、DomainBを識別対象として識別を行う例を示している。
[0089]
 ケースBの例では、Precisionを重視する(Sureな識別を行う)レベルの境界線と、Recallを重視する(可能性がある部分を拾う識別を行う)レベルの境界線が2段階で設定されている。ケースBの例においては、Precision重視の収束フェーズではDomainBの要素のみが識別対象となるが、Recall重視の拡散フェーズでは、DomainBの要素に加え、DomainAの要素の一部が識別対象に含まれる。
[0090]
 以上のようにして、推定されたフェーズに応じて、ユーザの発話の解釈を決定するレベルを設定することができる。
[0091]
 また、応答生成部80は、フェーズ推定部79により推定されたフェーズに応じた検索範囲となるようなクエリを生成する。
[0092]
 具体的には、拡散フェーズであると推定された場合には、検索キー(条件)となる属性として、指定された属性以外の情報を検索するようなクエリが生成される。例えば、音楽を検索する場合、ジャズが指定されたときに、特定の年代で検索したり、特定のボーカリストで検索するようなクエリが生成されるようにする。
[0093]
 一方、収束フェーズであると推定された場合には、検索キーとなる属性として、指定された属性の情報のみを検索するようなクエリが生成される。
[0094]
 また、拡散フェーズであると推定された場合には、属性値(検索範囲)として、指定された属性値以外の情報を検索するようなクエリが生成されるようにしてもよい。例えば、レストランを検索する場合、渋谷の店が指定されたときに、恵比寿や代官山など、渋谷近辺の地域の店を検索するようなクエリが生成されるようにする。
[0095]
 以上のようにして、フェーズに応じて、ユーザの発話の解釈が決定され、その解釈の結果に基づいたクエリが設定されると、処理はステップS16に進む。
[0096]
 ステップS16において、情報提供サーバ30は、応答生成部80により生成されたクエリに基づいて検索を実行し、その結果を応答生成部80に供給する。応答生成部80は、情報提供サーバ30からの検索結果を基に、ユーザの発話に対する応答を生成する。
[0097]
 すなわち、応答生成部80は、拡散フェーズにおいては、ユーザの発話を幅広く解釈した応答を生成し、収束フェーズにおいては、ユーザの発話を確実に解釈(識別)した応答を生成する。
[0098]
 ステップS17において、出力生成部81は、フェーズ推定部79により推定されたフェーズに応じて、応答の提示方法を決定するとともに、応答生成部80により生成された応答に基づいた出力情報を生成する。
[0099]
 出力生成部81は、推定されたフェーズに応じて決定した提示方法により、提示される応答の数を決定する。
[0100]
 例えば、拡散フェーズであると推定された場合には、クエリに基づいた検索結果に応じて、より多くの情報が提示されるようにする。例えば、レストランの営業時間、住所(地図情報)、価格帯、外観写真、口コミなど、様々な視点の関連情報が提示されるようにしてもよい。また、関連情報として、指定された属性以外の情報や属性値以外の情報を検索するクエリに基づいた検索結果、すなわち、ユーザが明確に発話していない条件(依頼発話により指定された条件以外の条件)での検索結果が、付加的に提示されるようにしてもよい。
[0101]
 一方、収束フェーズであると推定された場合には、クエリに基づいた検索結果に応じて、指定された条件に合致する情報や、最低限の情報など、生成された応答のみが提示されるようにする。
[0102]
 また、出力生成部81は、推定されたフェーズに応じて決定した提示方法により、表示と音声出力のいずれによって応答が提示されるかを決定してもよい。特に、表示によって応答が提示される場合には、その提示方法により、表示上での応答の配置が決定されるようにしてもよい。
[0103]
 ステップS18において、提示制御部82は、出力生成部81により生成された出力情報を、提示部として構成される音声出力部83と表示部84に、音声出力と表示により提示させる。
[0104]
 以上のようにして、ホームエージェント20(音声対話システム)による応答提示処理が実行される。
[0105]
 ここで、図9を参照して、上述した応答提示処理に対応する、ユーザの発話から応答提示までの流れについて説明する。ここでは、図3を参照して説明した応答提示におけるStep1を例示して説明する。
[0106]
 図9においては、「入力」、「応答生成」、「情報取得」、「出力生成」、「提示」の5ステップが示されている。入力ステップは、図7のステップS11に対応し、応答生成ステップは、図7のステップS12乃至S15に対応し、情報取得は、図7のステップS16に対応する。また、出力生成ステップは、図7のステップS17に対応し、提示ステップは、図7のステップS18に対応する。
[0107]
 入力ステップでは、丸数字1で示されるユーザプロファイル、丸数字2で示されるユーザ状態、および丸数字3で示される依頼発話が入力される。
[0108]
 入力ステップにおいて、図3のStep1の例では、ユーザプロファイルは、フレンチレストランへの予約履歴はこれまで一度もない旨の情報として入力される。ユーザ状態は、夫婦2人(ユーザA,B)がホームエージェント20との対話を開始した旨の情報と、リビングでゆったりしている旨の情報として入力される。依頼発話は、ユーザAによる「週末に横浜で外食したい」という発話として入力される。
[0109]
 応答生成ステップでは、丸数字4で示される音声認識・意味解析、丸数字5で示されるフェーズ推定、および丸数字6で示されるクエリ生成の各処理が実行される。
[0110]
 応答生成ステップにおいて、図3のStep1の例では、音声認識・意味解析により、インテントが「レストラン検索」に判別され、エンティティが「レストラン」、「横浜」に判別される。フェーズ推定によれば、対話の開始直後であるので、フェーズは拡散フェーズであると推定される。クエリ生成によれば、レストラン検索で「横浜駅周辺」を検索するクエリQ#001、レストラン検索で「桜木町」を検索するクエリQ#002、レストラン検索で「関内・中華街周辺」を検索するクエリQ#003が生成される。
[0111]
 情報取得ステップでは、丸数字7で示されるように検索が実行される。
[0112]
 情報取得ステップにおいて、図3のStep1の例では、クエリQ#001乃至Q#003による検索が実行される。
[0113]
 出力生成ステップでは、丸数字8で示されるように提示方法が決定される。ここでは、提示される応答の個数、配置、TTS(Text-To-Speech)の種類などが決定される。
[0114]
 出力生成ステップにおいて、図3のStep1の例では、提示方法として、クエリQ#001の検索結果の上位20件を画面左に配置することと、クエリQ#002,Q#003の検索結果の上位5件ずつを画面右側に小さく配置することが決定される。
[0115]
 提示ステップでは、丸数字9で示される画像情報の提示、丸数字10で示される音声情報の提示が行われる。
[0116]
 提示ステップにおいては、図3のStep1の例では、クエリQ#001乃至Q#003の検索結果が、決定された提示方法で提示される。
[0117]
 次に、図10を参照して、図3を参照して説明した応答提示におけるStep3を例示しながら、ユーザの発話から応答提示までの流れについて説明する。
[0118]
 入力ステップにおいて、図3のStep3の例では、ユーザプロファイルとユーザ状態は、図9の例と同様とされる。依頼発話は、ユーザAによる「いいね、カジュアルな店がいいなぁ」という発話として入力される。
[0119]
 応答生成ステップにおいて、図3のStep3の例では、音声認識・意味解析により、インテントが「レストラン検索」に判別され、エンティティが「フレンチレストラン」、「横浜」、「カジュアル」に判別される。フェーズ推定によれば、2人の意見が合ったので、フェーズはやや収束フェーズへ遷移したが、まだ拡散フェーズであると推定される。そして、クエリ生成によれば、レストラン検索で「フレンチ&横浜&カジュアル」を検索するクエリQ#001と、レストラン検索で「フレンチ&横浜&カジュアル」を検索するクエリQ#002が生成される。
[0120]
 情報取得ステップにおいて、図3のStep3の例では、クエリQ#001,Q#002による検索が実行される。
[0121]
 出力生成ステップにおいて、図3のStep3の例では、提示方法として、クエリQ#001の検索結果の上位20件を画面左に配置することと、クエリQ#002の検索結果の上位5件を画面右側に小さく配置することが決定される。さらに、その他に検索可能な条件(口コミ、定休日、ラストオーダ時間、席数など)を画面下方に配置することが決定される。
[0122]
 提示ステップにおいては、図3のStep3の例では、クエリQ#001,Q#002の検索結果と検索可能な条件とが、決定された提示方法で提示される。
[0123]
 以上の処理によれば、ユーザの意思決定プロセス(フェーズ)が推定され、推定されたフェーズに応じた応答が生成されるので、ユーザに対してより適切な応答を提示することが可能となる。
[0124]
 具体的には、ユーザが条件や属性を吟味している状態では、ユーザの発話が幅広く解釈され、拡散的な情報が提示されるので、ユーザが様々な側面から検討できるようになる。また、ユーザが条件を絞り込んでいる状態では、ユーザの発話が確実に識別され、絞り込んだ情報が提示されるので、ユーザの意思決定を促進できるようになる。結果として、ユーザが満足する情報を提示することができる。
[0125]
<3.具体例・変形例>
 以下では、上述した応答提示処理における各処理の具体例や変形例について説明する。
[0126]
(出力情報の表示例)
 図11は、表示部84における出力情報(応答)の表示例を示す図である。図11の例では、収束フェーズに対応したSureな情報と、拡散フェーズに対応した幅広い情報の両方が、出力情報として表示されている。
[0127]
 図11の表示例Aでは、表示画面左上の比較的小さい領域101AにSureな情報が表示され、それ以外の領域102Aに幅広い情報が表示されている。
[0128]
 図11の表示例Bでは、表示画面左上2/3程度を占める領域101BにSureな情報が表示され、それ以外の領域102Bに幅広い情報が表示されている。領域101Bには、画像などを含む詳細情報が表示されるようにする。一方、領域102Bには、テキストなどの詳細でない情報が表示されるようにする。
[0129]
 図11の表示例Cでは、表示画面左側の6割程度を占める領域101CにSureな情報が表示され、それ以外の領域102Cに幅広い情報が表示されている。領域102Cには、アニメーションなどで常に動的に切り替わる情報が表示されるようにする。
[0130]
 図11の表示例Dでは、発話者の近くとなる表示画面左側の6割程度を占める領域101DにSureな情報が表示され、発話者の相手の近くとなる表示画面右側の4割程度を占める領域102Dに幅広い情報が表示されている。
[0131]
 このように、Sureな情報と幅広い情報の両方が表示される場合、表示画面上での配置や大きさが異なるようにしてもよい。
[0132]
(異なる提示方法での情報提示)
 また、収束フェーズに対応した情報と、拡散フェーズに対応した情報で、提示方法が異なるようにしてもよい。
[0133]
 例えば、端的な応答が可能な場合においては、音声出力によって収束フェーズに対応したSureな情報が提示される一方、表示によって拡散フェーズに対応した幅広い情報が提示されるようにする。
[0134]
 また、明確な依頼をしている発話者には、収束フェーズに対応したSureな情報が提示され、その場にいる他の人には、拡散フェーズに対応した幅広い情報が提示されるようにしてもよい。
[0135]
 さらに、ユーザ(発話者)の視線に基づいて、表示画面を見ていない人の発話に対しては、Sureな情報が提示され、表示画面を見ている人の発話に対しては、幅広い情報が提示されるようにしてもよい。
[0136]
(ユーザ状態に応じたフェーズ推定)
 ユーザの特性に応じてフェーズが推定されるようにしてもよい。例えば、発話者が視覚障碍者である場合、その発話者には音声以外のモーダルで情報の補足ができないことから、収束フェーズであると推定されるようにする。この場合、音声出力によってSureな情報が提示されるようにする。
[0137]
 また、ユーザに人数に応じてフェーズが推定されるようにしてもよい。例えば、ユーザが複数人の場合には、収束フェーズであると推定されるようにする。これにより、Sureな情報が提示され、ユーザ同士の会話による湧き出し(入力しようとしていない発話をシステム側が拾ってしまう動作)が抑えられる。一方、ユーザが1人の場合には、拡散フェーズであると推定されるようにする。これにより、幅広い情報が提示され、対話相手がいない場合であっても発話が広く認識されることで、ユーザの検討の幅が広げられる。
[0138]
(対話文脈に応じた応答生成)
 現在の対話文脈に応じた応答生成(情報検索)が行われるようにしてもよい。
[0139]
 具体的には、現在の対話文脈(図8のDomainに対応)に合ったインテントについては、Recall重視の情報検索を行い、現在の対話文脈(Domain)に合っていないインテントについては、Precision重視の情報検索を行う。
[0140]
 例えば、横浜のレストランを探している対話文脈(外出情報Domain)において、横浜のイベントを探す依頼発話(外出情報Domain)が発生した場合、横浜のイベント情報以外の観光地情報や、横浜以外の情報が検索されるようにする。
[0141]
 一方、横浜のレストランを探している対話文脈(外出情報Domain)において、ジャズを再生する依頼発話(音楽再生Domain)が発生した場合、ジャズが検索されて再生されるようにする。
[0142]
 また、「今月のおすすめ曲を教えて」など聞きたい曲を探している対話文脈(音楽再生Domain)において、ジャズを再生する依頼発話(音楽再生Domain)が発生した場合、ジャズを優先しつつ、他のジャンルの楽曲が検索されるようにする。
[0143]
 一方、聞きたい曲を探している対話文脈(音楽再生Domain)において、洋食のレシピを見たい旨の依頼発話(料理情報Domain)が発生した場合、洋食のレシピのみが検索されて提示されるようにする。
[0144]
 以上のようにして、現在の対話文脈の中で、別のDomainの発話が判別されるようにしてもよい。
[0145]
 この場合、例えば、一定時間内の発話であれば同じ対話文脈であると判別されたり、対話するユーザのメンバが完全に入れ替わった場合には、一定時間内の発話であっても別の対話文脈であると判別されるようにする。また、ユーザ同士の視線が取得される場合、相手の方を見ていない発話は、別の対話文脈であると判別されるようにしてもよい。
[0146]
 さらに、別の対話文脈の検索条件を、現在の対話文脈の検索条件に反映できるような場合などには、例外的に、別のDomainであっても現在の対話文脈と同じ対話文脈であると判別されるようにしてもよい。
[0147]
 例えば、拡散フェーズにおいて、横浜の観光地を探している場合で、ジャズを再生する依頼発話が発生したとき、ジャズの検索がSureに行われて提示(再生)される。このとき、ジャズに関する横浜でのイベントがあれば、観光地でなくとも、ジャズのイベントが提示されるようにする。
[0148]
(音声対話システムの構成に応じたリクエスト)
 図12は、音声対話システムの構成に応じたリクエストの例を示す図である。
[0149]
 図12の構成Aにおいては、ホームエージェント20が、ユーザ10の発話に基づいて、条件を指定したリクエストを、情報提供サーバ30に送信する。情報提供サーバ30は、ホームエージェント20により指定された条件での検索を実行し、その検索結果をホームエージェント20に送信する。
[0150]
 図12の構成Aでは、例えば、ホームエージェント20により、推定された拡散フェーズにおいて横浜のレストランを検索するリクエストが送信された場合、情報提供サーバ30からは、横浜駅、桜木町駅、関内・中華街周辺のレストランの検索結果が、ホームエージェント20に送信される。
[0151]
 すなわち、図12の構成Aでは、上述した通り、応答生成部80が、推定されたフェーズに応じて、ユーザの発話に基づいたクエリ(リクエスト)を生成している。
[0152]
 一方、図12の構成Bにおいては、ホームエージェント20が、ユーザ10の発話に基づいたリクエストを、情報提供サーバ30に送信している。情報提供サーバ30は、ホームエージェント20からのリクエストに応じた検索を実行し、複数の検索結果をホームエージェント20に送信している。
[0153]
 図12の構成Bでは、例えば、ホームエージェント20により、横浜のレストランを検索するリクエストが送信された場合、情報提供サーバ30からは、
(1)横浜駅周辺のレストランの検索結果
(2)横浜駅、桜木町駅周辺のレストランの検索結果
(3)横浜駅、桜木町駅、関内・中華街周辺のレストランの検索結果
の3種類の検索結果が、ホームエージェント20に送信される。この場合、ホームエージェント20においては、推定されたフェーズに合った検索結果が提示されるようにする。
[0154]
 すなわち、図12の構成Bでは、応答生成部80が、推定されたフェーズによらず、ユーザの発話に基づいたクエリ(リクエスト)を生成し、情報提供サーバ30からの検索結果から、推定されたフェーズに応じた検索結果を選択することで、応答を生成している。
[0155]
 このように、本技術を適用した音声対話システムにおいては、情報提供サーバ30側で、推定されたフェーズに応じた情報の検索が行われてもよいし、ホームエージェント20側で、推定されたフェーズに応じた情報の提示が行われてもよい。
[0156]
(ユーザ状態によるフェーズの遷移)
 以下のようにして、フェーズが遷移するようにしてもよい。
[0157]
 (1)ユーザの視線
 表示画面に、拡散フェーズに対応した情報と、収束フェーズに対応した情報の両方が表示されている場合、ユーザの視線方向にある情報に応じて、フェーズが遷移するようにしてもよい。
[0158]
 (2)ユーザの嗜好
 ユーザが、自身の嗜好に関して発話している場合には、収束フェーズに遷移し、それ以外の話題について発話している場合には、拡散フェーズに遷移するようにしてもよい。
[0159]
 (3)ユーザの操作
 ユーザの操作により、変化する前のフェーズに戻ることができてもよい。
[0160]
 この場合、デバイスの種類(操作し易さ)によってフェーズの遷移の速さが変わるようにしてもよい。例えば、操作し易いスマートフォンの場合には、より速く収束フェーズに遷移し、家族で扱うような大型の機器の場合には、ゆっくりと収束フェーズに遷移するようにする。
[0161]
 また、フェーズの遷移の速さや変化の幅が、ユーザによるスライダの操作や音声指示などによって調整されるようにしてもよい。
[0162]
 (4)ユーザの状況
 ユーザが移動中であったり、家でくつろいでいたりなど、ユーザの状況によってフェーズの遷移の速さが変わるようにしてもよい。例えば、ユーザが移動中の場合には、より速く収束フェーズに遷移し、ユーザが家でくつろいで場合には、ゆっくりと収束フェーズに遷移するようにする。
[0163]
 また、ユーザのスケジュールや時間帯によってフェーズの遷移の速さが変わるようにしてもよい。例えば、ユーザが外出する直前には、より速く収束フェーズに遷移し、夜間帯には、ゆっくりと収束フェーズに遷移するようにする。
[0164]
 さらに、ユーザの表情や感情によってフェーズの遷移の速さや遷移方向が変わるようにしてもよい。例えば、フェーズが遷移したときのユーザの反応がネガティブであると判別された場合には、遷移する前のフェーズに戻るようにする。
[0165]
 (5)ユーザの人数
 例えば、ユーザ同士の会話の中に新しいメンバが参加した場合には、やや収束フェーズに遷移するようにしてもよい。
[0166]
 また、複数人のユーザが会話している場合には、各ユーザの話題のANDをとった情報が提示されるようなフェーズに遷移するようにしてもよい。
[0167]
 さらに、ユーザが複数人の場合、画面表示や、指向性のある音声によって、複数のユーザ毎に情報が提示されるようにしてもよい。
[0168]
 (6)表示
 上述した例において、現在のフェーズが、表示部84の色や画面表示(表情)、音声出力部83から出力される合成音声(声のトーン)の変化などによって提示されるようにしてもよい。
[0169]
<4.ニューラルネットワークを用いたフェーズ推定>
 本技術におけるフェーズ推定に、ニューラルネットワークによる学習を用いてもよい。
[0170]
 図13は、ニューラルネットワークの構成例を示す図である。
[0171]
 図13のニューラルネットワークは、入力ノード151、中間ノード152、および出力ノード153で構成される階層型ニューラルネットワークである。
[0172]
 入力ノード151には、上述したユーザプロファイル、ユーザ状態、ユーザ発話、コンテクストが入力される。
[0173]
 中間ノード152においては、各ニューロンにおいて、入力ノード151に入力されたユーザプロファイル、ユーザ状態、ユーザ発話、コンテクストに基づいたフェーズ推定に係る演算が行われる。
[0174]
 出力ノード153には、中間ノード152における演算の結果として、拡散フェーズ/収束フェーズの指標となる拡散指数と収束指数が出力される。
[0175]
 図14に示されるように、拡散指数と収束指数によって、意思決定プロセスが拡散フェーズであるか、収束フェーズであるかが決定される。
[0176]
 具体的には、拡散指数が一定値より高い場合には、拡散フェーズとなり、収束指数が一定値より高い場合には、収束フェーズとなる。また、拡散指数と収束指数の両方の指数が一定値より高いか、または、(両方の指数の差が所定値以下など)両方の指数が拮抗している場合には、拡散フェーズと収束フェーズの中間フェーズとなる。
[0177]
 図13の例では、拡散指数0.86、収束指数0.22が出力されているので、例えば拡散フェーズとなる。
[0178]
 このようにして、本技術におけるフェーズ推定を、ニューラルネットワークによる学習を用いて行うことができる。
[0179]
<5.クラウドコンピューティングへの適用>
 本技術は、クラウドコンピューティングへ適用することもできる。
[0180]
 図15は、クラウドコンピューティングへ適用した音声対話システムの機能構成例を示すブロック図である。なお、図15において、図6に示された構成と同様の構成には、同一の符号を付し、その説明は省略する。
[0181]
 図15に示されるように、ホームエージェント20は、音声取得部71、撮像部72、センシング部73、および、音声出力部83と表示部84を有する提示部191を備えている。
[0182]
 一方、クラウドサーバ200は、音声認識部74、意味解析部75、画像解析部76、データ解析部77、記憶部78、フェーズ推定部79、応答生成部80、および出力生成部81を備えている。
[0183]
 なお、図15において、図6の提示制御部82は図示されないが、ホームエージェント20とクラウドサーバ200のいずれに設けられてもよい。
[0184]
 図15の音声対話システムにおいて、クラウドサーバ200は、ホームエージェント20からのユーザの発話に基づいたリクエストを、情報提供サーバ30に送信する。
[0185]
 情報提供サーバ30は、クラウドサーバ200からのリクエストに応じた検索を実行し、その検索結果をクラウドサーバ200に送信する。
[0186]
 クラウドサーバ200は、情報提供サーバ30からの検索結果に基づいて、ユーザの発話に対する応答を生成し、ホームエージェント20を介してユーザに提示する。
[0187]
 このような構成においても、ユーザの意思決定プロセス(フェーズ)が推定され、推定されたフェーズに応じた応答が生成されるので、ユーザに対してより適切な応答を提示することが可能となる。
[0188]
<6.コンピュータの構成>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
[0189]
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
[0190]
 上述したホームエージェント20およびクラウドサーバ200は、図16に示す構成を有するコンピュータ1000により実現される。
[0191]
 CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
[0192]
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
[0193]
 以上のように構成されるコンピュータ1000では、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
[0194]
 CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
[0195]
 なお、コンピュータ1000が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
[0196]
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
[0197]
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
[0198]
 さらに、本技術は以下のような構成をとることができる。
(1)
 ユーザの意思決定に関するフェーズを推定するフェーズ推定部と、
 推定された前記フェーズに応じた、前記ユーザの発話に対する応答を生成する応答生成部と
 を備える情報処理装置。
(2)
 前記フェーズは、前記ユーザの意思決定プロセスが拡散状態にある拡散フェーズと、前記意思決定プロセスが収束状態にある収束フェーズを含む
 (1)に記載の情報処理装置。
(3)
 前記応答生成部は、前記拡散フェーズにおいて、前記ユーザの発話を幅広く解釈した前記応答を生成する
 (2)に記載の情報処理装置。
(4)
 前記応答生成部は、前記収束フェーズにおいて、前記ユーザの発話を確実に解釈した前記応答を生成する
 (3)に記載の情報処理装置。
(5)
 前記応答生成部は、前記フェーズに応じて、前記ユーザの発話に基づいたクエリを生成することで、前記応答を生成する
 (2)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記応答生成部は、前記ユーザの発話に基づいたクエリを生成し、前記フェーズに応じて、前記クエリに基づいた検索結果を選択することで、前記応答を生成する
 (2)乃至(4)のいずれかにに記載の情報処理装置。
(7)
 前記フェーズ推定部は、前記ユーザのプロファイル、前記ユーザの状態、前記ユーザの発話、およびコンテクストの少なくともいずれかに基づいて、前記フェーズを推定する
 (2)乃至(6)のいずれかに記載の情報処理装置。
(8)
 前記ユーザのプロファイルは、前記ユーザの行動履歴を含む
 (7)に記載の情報処理装置。
(9)
 前記ユーザの状態は、前記ユーザの対話相手の有無、周囲環境、および前記ユーザの視線の向きを含む
 (7)に記載の情報処理装置。
(10)
 生成された前記応答に基づいた出力情報を生成する出力生成部をさらに備える
 (2)乃至(9)のいずれかに記載の情報処理装置。
(11)
 前記出力生成部は、前記フェーズに応じた提示方法で前記応答を提示するための前記出力情報を生成する
 (10)に記載の情報処理装置。
(12)
 前記提示方法により、提示される前記応答の数が決定される
 (11)に記載の情報処理装置。
(13)
 前記提示方法により、表示および音声出力のいずれによって前記応答が提示されるかが決定される
 (12)に記載の情報処理装置。
(14)
 表示によって前記応答が提示される場合、前記提示方法により、表示上での前記応答の配置が決定される
 (13)に記載の情報処理装置。
(15)
 前記出力生成部は、前記拡散フェーズにおいて、生成された前記応答に関連する関連情報をさらに提示するための前記出力情報を生成し、
 前記関連情報は、前記ユーザの明確な発話に基づかない付加的な情報を含む
 (11)乃至(14)のいずれかに記載の情報処理装置。
(16)
 前記出力生成部は、前記収束フェーズにおいて、生成された前記応答のみを提示するための前記出力情報を生成する
 (15)に記載の情報処理装置。
(17)
 前記出力情報の提示を制御する提示制御部をさらに備える
 (11)乃至(16)のいずれかに記載の情報処理装置。
(18)
 前記ユーザの発話を取得する音声取得部と、
 前記提示制御部の制御により、前記出力情報を提示する提示部とをさらに備える
 (17)に記載の情報処理装置。
(19)
 情報処理装置が、
 ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、
 生成された前記応答に基づいた出力情報を生成する
 情報処理方法。
(20)
 コンピュータに、
 ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、
 生成された前記応答に基づいた出力情報を生成する
 処理を実行させるためのプログラム。

符号の説明

[0199]
 20 ホームエージェント, 30 情報提供サーバ, 71 音声取得部, 72 撮像部, 73 センシング部, 74 音声認識部, 75 意味解析部, 76 画像解析部, 77 データ解析部, 78 記憶部, 79 フェーズ推定部, 80 応答生成部, 81 出力生成部, 82 提示制御部, 83 音声出力部, 84 表示部, 191 提示部, 200 クラウドサーバ

請求の範囲

[請求項1]
 ユーザの意思決定に関するフェーズを推定するフェーズ推定部と、
 推定された前記フェーズに応じた、前記ユーザの発話に対する応答を生成する応答生成部と
 を備える情報処理装置。
[請求項2]
 前記フェーズは、前記ユーザの意思決定プロセスが拡散状態にある拡散フェーズと、前記意思決定プロセスが収束状態にある収束フェーズを含む
 請求項1に記載の情報処理装置。
[請求項3]
 前記応答生成部は、前記拡散フェーズにおいて、前記ユーザの発話を幅広く解釈した前記応答を生成する
 請求項2に記載の情報処理装置。
[請求項4]
 前記応答生成部は、前記収束フェーズにおいて、前記ユーザの発話を確実に解釈した前記応答を生成する
 請求項3に記載の情報処理装置。
[請求項5]
 前記応答生成部は、前記フェーズに応じて、前記ユーザの発話に基づいたクエリを生成することで、前記応答を生成する
 請求項2に記載の情報処理装置。
[請求項6]
 前記応答生成部は、前記ユーザの発話に基づいたクエリを生成し、前記フェーズに応じて、前記クエリに基づいた検索結果を選択することで、前記応答を生成する
 請求項2に記載の情報処理装置。
[請求項7]
 前記フェーズ推定部は、前記ユーザのプロファイル、前記ユーザの状態、前記ユーザの発話、およびコンテクストの少なくともいずれかに基づいて、前記フェーズを推定する
 請求項2に記載の情報処理装置。
[請求項8]
 前記ユーザのプロファイルは、前記ユーザの行動履歴を含む
 請求項7に記載の情報処理装置。
[請求項9]
 前記ユーザの状態は、前記ユーザの対話相手の有無、周囲環境、および前記ユーザの視線の向きを含む
 請求項7に記載の情報処理装置。
[請求項10]
 生成された前記応答に基づいた出力情報を生成する出力生成部をさらに備える
 請求項2に記載の情報処理装置。
[請求項11]
 前記出力生成部は、前記フェーズに応じた提示方法で前記応答を提示するための前記出力情報を生成する
 請求項10に記載の情報処理装置。
[請求項12]
 前記提示方法により、提示される前記応答の数が決定される
 請求項11に記載の情報処理装置。
[請求項13]
 前記提示方法により、表示および音声出力のいずれによって前記応答が提示されるかが決定される
 請求項12に記載の情報処理装置。
[請求項14]
 表示によって前記応答が提示される場合、前記提示方法により、表示上での前記応答の配置が決定される
 請求項13に記載の情報処理装置。
[請求項15]
 前記出力生成部は、前記拡散フェーズにおいて、生成された前記応答に関連する関連情報をさらに提示するための前記出力情報を生成し、
 前記関連情報は、前記ユーザの明確な発話に基づかない付加的な情報を含む
 請求項11に記載の情報処理装置。
[請求項16]
 前記出力生成部は、前記収束フェーズにおいて、生成された前記応答のみを提示するための前記出力情報を生成する
 請求項15に記載の情報処理装置。
[請求項17]
 前記出力情報の提示を制御する提示制御部をさらに備える
 請求項11に記載の情報処理装置。
[請求項18]
 前記ユーザの発話を取得する音声取得部と、
 前記提示制御部の制御により、前記出力情報を提示する提示部とをさらに備える
 請求項17に記載の情報処理装置。
[請求項19]
 情報処理装置が、
 ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、
 生成された前記応答に基づいた出力情報を生成する
 情報処理方法。
[請求項20]
 コンピュータに、
 ユーザの意思決定に関するフェーズに応じた、前記ユーザの発話に対する応答を生成し、
 生成された前記応答に基づいた出力情報を生成する
 処理を実行させるためのプログラム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]