Processing

Please wait...

Settings

Settings

Goto Application

1. WO2012063415 - VOICE CONTROL DEVICE AND VOICE CONTROL METHOD

Document

明 細 書

発明の名称 音声制御装置および音声制御方法

技術分野

0001  

背景技術

0002   0003   0004   0005  

先行技術文献

特許文献

0006  

発明の概要

発明が解決しようとする課題

0007   0008   0009  

課題を解決するための手段

0010   0011  

発明の効果

0012  

図面の簡単な説明

0013  

発明を実施するための形態

0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080  

産業上の利用可能性

0081  

符号の説明

0082  

請求の範囲

1   2   3   4   5   6   7   8   9   10  

図面

1   2   3   4   5   6  

明 細 書

発明の名称 : 音声制御装置および音声制御方法

技術分野

[0001]
 本発明は、発話音声を含む音声データを出力する音声制御装置および音声制御方法に関する。

背景技術

[0002]
 近年、情報の入出力が音声によって行われる、携帯電話機等の音声コミュニケーションツールが、日常に不可欠なものとなっている。
[0003]
 電話に代表される音声コミュニケーションツールは、目視することなく情報をやりとりすることが可能なツールである。一方で、インターネット通信の高速化および大容量化により、高品質な音声通信環境を提供する各種インフラが整ってきている。したがって、音声コミュニケーションツールは、このようなインフラを利用することにより、臨場感のある音声コミュニケーションが可能となっている。すなわち、音声コミュニケーションツールは、関連技術の品質向上により、各種分野への適用の可能性が広がっている。
[0004]
 最も期待されている適用分野の1つは、テレビ会議システム、多人数間での通話、および音声チャット等の、不特定多数の多地点音声コミュニケーションシステムである。ところが、このようなシステムでは、出力されている発話音声が誰のものであるか、すなわち誰が発言しているかが、分かり辛いことがある。
[0005]
 そこで、発言者名を文字表示する技術(例えば特許文献1参照)を用いることが考えられる。特許文献1記載の技術は、座談会や会議のように多数の人の発言を文字に変換して文書を作成して画面に表示する際に、各発言区分に発言者名を付加的に文字表示する。また、発話音声の発話者を示す発話者情報を、視覚インジケータにより視覚的に表示する技術(例えば特許文献2参照)を用いることが考えられる。これらの従来技術を音声コミュニケーションツールに適用することにより、ユーザは、聞こえてくる発話音声が誰のものであるかをより確実に特定することができる。

先行技術文献

特許文献

[0006]
特許文献1 : 特開平10-320385号公報
特許文献2 : 特開2005-100420号公報

発明の概要

発明が解決しようとする課題

[0007]
 ところで、多数の発言者が同時に発言している状況において、ユーザがある出力中の発話音声に興味を持ち、その発言者が誰であるのかを知りたいと望むことがある。このような状況は、例えば、複数の会話グループが存在している場合や、会議が白熱している場合等に起こり得る。
[0008]
 しかしながら、上述の従来技術では、このような場合において、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに確実に通知することができないという課題がある。なぜなら、従来技術では、複数の発話者情報が一度に提示され、ユーザは、その複数の情報の中から、興味を持った発話音声に対応する情報を自ら探し出さなければならないからである。
[0009]
 本発明の目的は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法を提供することである。

課題を解決するための手段

[0010]
 本発明の音声制御装置は、発話音声を含む音声データを受信する受信部と、取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、所定の操作を任意のタイミングで受け付ける操作入力部とを有し、前記音声出力部は、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する。
[0011]
 本発明の音声制御方法は、発話音声を含む音声データを受信するステップと、取得された前記音声データに基づいて前記発話音声を出力するステップと、出力中の前記発話音声の発話者情報を保持するステップと、所定の操作を任意のタイミングで受け付けるステップと、前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップとを有する。

発明の効果

[0012]
 本発明によれば、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。

図面の簡単な説明

[0013]
[図1] 本発明の実施の形態1に係る音声制御装置の構成を示すシステム構成図
[図2] 本実施の形態1における配置情報を説明するための模式図
[図3] 本実施の形態1に係る音声制御装置の動作の一例を示すフローチャート
[図4] 本実施の形態1に係る配置情報の設定内容の一例を示す図
[図5] 本発明の実施の形態2に係る音声制御装置の構成の一例を示すブロック図
[図6] 本実施の形態2に係る音声制御装置の動作の一例を示すフローチャート

発明を実施するための形態

[0014]
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
[0015]
 (実施の形態1)
 本発明の実施の形態1は、本発明に係る音声制御装置を、デジタルラジオの受信装置に適用した場合の例である。
[0016]
 図1は、本発明の実施の形態1に係る音声制御装置の構成を示すシステム構成図である。
[0017]
 図1において、音声制御装置100は、受信部110、操作入力部120、発話者情報保持部130、および音声出力部140を有する。
[0018]
 受信部110は、例えばアンテナおよびチューナを有し、音声提供装置200からデジタルラジオ信号により放送される音声データを受信して、音声出力部140へ出力する。このとき、受信部110は、後述の配置情報から音声データの識別情報を取得し、音声データに識別情報を付加する。また、受信部110は、音声データの時刻に対応付けて放送される発話者情報を、音声提供装置200から受信し、発話者情報保持部130へ出力する。このとき、受信部110は、識別情報を発話者情報に付加する。
[0019]
 本実施の形態における音声提供装置200は、例えば、デジタルラジオの放送局の通信設備である。また、音声提供装置200は、話者毎に生成された同時に出力されるべき複数の音声データを、チャネル多重化して放送する。また、本実施の形態における発話者情報は、発話者の名前(以下「発話者名」という)の仮名のテキストデータを含むものであり、音声提供装置200が放送する音声データに付加されている。また、識別情報は、チャネルの識別情報等に基づいて受信部110が設定する情報であり、ユーザに対して発話者の発話音声が聴こえる方向を示す配置情報である。
[0020]
 図2は、配置情報を説明するための模式図である。
[0021]
 受信部110は、ユーザ400の基本姿勢を基準として、ユーザ400の周囲に想定した仮想的な空間に、各発話者500(音声データの送信元)を仮想配置する。そして、受信部110は、各発話者500に対して、その配置場所を示す情報を、配置情報として設定する。
[0022]
 例えば、ある発話者500 は、ユーザ400の基本姿勢における正面方向が、配置情報として設定されたとする。この場合、後述の通り、ユーザ400の基本姿勢における正面方向から発話者500 の発話音声が聞こえるように、音声の配置が制御される。これにより、音声制御装置100は、発話者500 があたかも目の前に位置しているような感覚を、ユーザに与える事ができる。
[0023]
 図1の操作入力部120は、例えばモーションセンサを有し、所定の操作による配置情報の指定を、任意のタイミングでユーザから受け付ける。そして、操作入力部120は、所定の操作が行われたとき、その旨を示す発話者情報要求を、指定された配置情報(以下「指定配置情報」という)とともに発話者情報保持部130へ出力する。なお、操作入力部120は、キーボタン、スイッチ、ダイヤル等でもよい。また操作入力部120は、音声制御装置100から分離したリモートコントローラと、このリモートコントローラから操作信号を受信するコントローラ受信部とから構成されてもよい。
[0024]
 本実施の形態では、所定の操作は、ユーザが頷く動作であるものとする。すなわち、指定配置情報とは、ユーザが頷く動作を行ったときのユーザの顔の向き(以下「顔方向」という)に関する情報である。
[0025]
 図2で説明すると、ユーザ400が発話者500 の方を向いて頷く動作を行ったとき、正面方向を示す配置情報が指定されることになる。
[0026]
 図1の発話者情報保持部130は、配置情報に付加された発話者名が受信部110から入力されると、これを格納する。但し、発話者情報保持部130は、同一の配置情報の発話者名については最新の発話者名のみを保持し、かつ、入力されてから所定の時間が経過した発話者名については削除する。
[0027]
 また、発話者情報保持部130は、操作入力部120から発話者情報要求と指定配置情報とを受け取り、指定配置情報に該当する発話者名を抽出する。そして、発話者情報保持部130は、発話者情報要求を入力される毎に、発話者名を、指定配置情報とともに音声出力部140に出力する。
[0028]
 音声出力部140は、受信部110から入力される音声データから、配置情報が示す仮想位置に出力音声データを生成し、音声出力装置300へ送信する。音声出力装置300は、例えばステレオスピーカやステレオヘッドフォンであり、受信した出力音声データに基づいてステレオ音声を出力する。なお、音声制御装置100における音声データの受信から音声出力装置300における音声出力までの処理遅延は、非常に短いものとする。また、音声出力部140は、発話音声を含む音声データが複数入力されている場合、複数の音声データに基づく複数の発話音声を、音声出力装置300を介して出力することになる。
[0029]
 また、音声出力部140は、指定配置情報および発話者名を発話者情報保持部130から受け取ると、発話者名の読み上げ音声のデータを生成する。そして、音声出力部140は、生成した発話者名の音声データを、生成中の出力音声データに重畳する。このとき、音声出力部140は、指定配置情報に対応する方向から発話者名が聞こえるように、音声データの重畳を行う。すなわち、発話者情報要求が発せられる毎に、発話者名の音声を、指定配置情報に対応する方向から出力させる。なお、音声出力部140は、発話者情報の音声を、指定配置情報が示す方向(発話者が配置された方向)とは少し異なる方向(例えば少し下の方向)に配置することが望ましい。これにより、ユーザは、発話音声と発話者情報とを、互いに関連付けて認識しつつ、区別して聞き取る事が容易となる。
[0030]
 このような音声制御装置100は、発話者毎に異なる方向で、発話音声をユーザに聞かせることができる。また、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、音声制御装置100は、その方向に設定された発話者の発話者名を、音声でユーザに通知することができる。
[0031]
 図2で説明すると、ユーザ400が正面方向から聞こえてくる発話内容に興味を持ち、誰の発話であるのかを知りたくなり、正面方向を向いて頷く動作を行ったとする。この場合、発話者500 の発話者名が、発話者500 の配置されている正面方向から、音声によってユーザ400に通知されることになる。
[0032]
 すなわち、音声制御装置100は、ユーザの任意の操作タイミングで、ユーザが指定した方向から聞こえる発話音声の発話者情報を音声で出力する。したがって、音声制御装置100は、ユーザが知りたいと望む出力中の発話音声の発話者名を、ユーザに対してより確実に通知することができる。
[0033]
 次に、音声制御装置100の動作について説明する。
[0034]
 図3は、音声制御装置100の動作の一例を示すフローチャートである。
[0035]
 まず、ステップS1000において、受信部110は、ユーザ操作等による動作の終了の要求があったか否かを判断する。受信部110は、終了の要求が無い場合(S1000:NO)、ステップS2000へ進む。
[0036]
 ステップS2000において、受信部110は、音声提供装置200から放送される1つまたは複数の音声データを受信したか否かを判断する。音声データには、上述の通り、受信部110により発話者情報が付加されている。受信部110は、音声データを受信していない場合(S2000:NO)、ステップS1000へ戻る。また、受信部110は、音声データを受信した場合(S2000:YES)、ステップS3000へ進む。
[0037]
 そして、ステップS3000において、受信部110は、受信した音声データに配置情報が設定されていない音声データ(送信元、チャネル)があるか否かを判断する。受信部110は、配置情報が未設定の音声データがある場合(S3000:YES)、ステップS4000へ進む。また、受信部110は、受信した音声データの全てに配置情報が設定されている場合(S3000:NO)、ステップS5000へ進む。
[0038]
 ステップS4000において、受信部110は、配置情報が未設定の音声データに対して、空いている方向の配置情報を設定して、ステップS5000へ進む。
[0039]
 図4は、配置情報の設定内容の一例を示す図である。
[0040]
 図4に示すように、受信部110は、方向710毎に、音声データ720を割り当てる。そして、受信部110は、その割り当て先の方向710を示す情報を、その音声データ720に対して、配置情報として設定する。例えば、図4に示すように、正面方向に、山田さんの発話音声を含む音声データ1が割り当てられたとする。この場合、ユーザが正面方向を向いて頷いたとき、後続の処理により、正面方向から「山田さん」という音声が聞こえてくることになる。また、例えば、図4に示すように、左方向にはどの音声データも割り当てられていないとする。この場合において、配置情報が未設定の音声データを受信したとき、受信部110は、左方向にその音声データを割り当て、その音声データに左方向の配置情報を設定する。
[0041]
 図3のステップS5000において、受信部110は、配置情報が付加された音声データを音声出力部140へ出力し、配置情報が付加された発話者情報を発話者情報保持部130へ出力する。この結果、発話者情報保持部130は、受信中の音声データに対応する発話者情報を保持した状態となる。
[0042]
 ステップS6000において、音声出力部140は、音声データに付加された配置情報の位置からユーザ400に聞こえるように、音声データから出力音声データを生成し、音声出力装置300へ出力する。
[0043]
 そして、ステップS7000において、操作入力部120は、音声出力部140が音声を出力している間、所定の操作、つまり、発話者情報の提示に対する要求が入力されるのを待ち受ける。操作入力部120は、所定の操作が行われた場合(S7000:YES)、ステップS8000へ進む。また、操作入力部120は、所定の操作が行われていない場合(S7000:NO)、ステップS9500へ進む。
[0044]
 ステップS8000において、発話者情報保持部130は、発話者情報要求に付加された指定配置情報に対応する発話者名を特定し、発話者名と指定配置情報とを音声出力部140に出力する。
[0045]
 そして、ステップS9000において、音声出力部140は、発話者情報要求に付加された指定配置情報の位置からユーザ400に聞こえるように、発話者名の読み上げ音声の出力音声データを生成する。そして、音声出力部140は、受信部110から入力された音声データに生成した音声データを重畳して、音声出力装置300へ出力する。そして、処理は、ステップS9500へ進む。
[0046]
 ステップS9500において、音声制御装置100は、継続して音声を出力中であるか否かを判断する。音声制御装置100は、音声を出力中である場合(S9500:YES)、ステップS7000へ戻り、音声出力と所定の操作の監視とを継続する。なお、音声データに対してストリーム処理を行う場合、音声制御装置100は、ステップS6000へ戻ってもよい。また、音声制御装置100は、音声の出力が終了した場合(S9500:NO)、ステップS1000へ戻り、新たな音声データの受信の監視を継続する。
[0047]
 そして、受信部110は、終了の要求があると(S1000:YES)、一連の動作を終了する。
[0048]
 このような動作により、音声制御装置100は、ユーザがいずれかの方向に顔を向けて頷く動作を行ったとき、その方向に設定された発話者の発話者名を、音声でユーザに聞かせることができる。また、この発話者名の音声は、本来の音声に重畳された状態となる。
[0049]
 なお、受信した発話者情報の保持と受信した音声データの出力とを行う処理、操作入力を受け付ける処理、および発話者名の音声出力の処理は、別のスレッドで同時に実行されてもよい。また、発話者情報の保持と受信した音声データの出力を行う処理は、同時に複数存在してもよく、これら複数の処理は、同時並行で実行されてもよい。
[0050]
 以上のように、本実施の形態に係る音声制御装置100は、出力中の発話音声の発話者情報を保持し、発話音声の出力中に所定の操作が行われたとき、保持している発話者情報を音声で出力する。これにより、音声制御装置100は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる。
[0051]
 例えば、ラジオのスイッチを入れて発話者の発言を途中から聞き始めたときや、複数の発話者が同時に発言しているときなど、声だけでは発話者が誰であるか認識できない場合がある。このような場合でも、音声制御装置100を用いることにより、ユーザは、文字による視覚情報を用いることなく、つまり、視覚を用いる事なく、発話者の情報を取得することができる。したがって、音声制御装置100は、車両の運転中のラジオ放送視聴や、家事を行っている間の音声コミュニケーション等に好適である。
[0052]
 なお、所定の操作は、上述の例に限定されるものではなく、例えば、所定のボタンの押下操作としてもよい。また、配置情報を指定する操作は、上述の例に限定されるものではなく、例えば、1つのボタンが押下される毎に、配置情報が所定の順番で切り替わる前提で、ボタンの最終的な押下回数により行われてもよい。
[0053]
 また、発話者情報保持部130は、必ずしも所定の時間が経過した発話者情報を削除しなくてもよい。また、発話者情報保持部130は、削除を行う場合、同一チャネルの音声データの話者が変更されるタイミングよりも前に該当する発話者情報の削除を行う事が望ましい。このために、発話者情報保持部130は、音声データが終了する毎に対応する発話者情報を削除してもよい。また、発話者情報保持部130は、発話者の発話頻度が少ない順に各発話者情報を適宜削除してもよいし、一定時間発話していない発話者の発話者情報を削除するようにしてもよい。
[0054]
 また、配置情報は、音声提供装置200により設定されてもよい。この場合、音声提供装置200は、例えば、各チャネルの音声データに配置情報を付加する。そして、音声制御装置100の受信部110は、音声データに付加された配置情報を用いる。また、配置情報は、音声制御装置100のユーザにより手動で設定または変更されてもよい。
[0055]
 (実施の形態2)
 本発明の実施の形態2は、本発明に係る音声制御装置を、多地点会議システム用の音声コミュニケーションツールに適用した例である。
[0056]
 図5は、本実施の形態に係る音声制御装置の構成の一例を示すブロック図である。
[0057]
 図5に示すように、本実施の形態に係る音声制御装置100aは、図1の構成に加えて音声入力部150aおよび送信部160aを有している。また、本実施の形態に係る音声制御装置100aは、実施の形態1とは異なる操作入力部120a、発話者情報保持部130aを有している。
[0058]
 音声入力部150aは、ユーザの発話音声を入力する音声入力装置600aと有線または無線により接続し、音声入力装置600aから、ユーザの発話音声を含む音声の電気信号を受信する。そして、音声入力部150aは、受信した電気信号を、A/Dコンバータにより、デジタル信号の音声データ(以下「ユーザ音声データ」という)へと変換する。音声入力装置600aは、例えば、ヘッドセットのマイクロフォンであり、入力した音声を電気信号に変換する装置である。音声入力部150aは、操作入力部120aから入力されるモード切替操作情報を受けて、発話者情報入力モードと会話モードとを切り替える。発話者情報入力モードのとき、音声入力部150aは、受信したユーザ音声データを、発話者情報保持部130aへ出力する。会話モードのとき、音声入力部150aは、ユーザ音声データを、送信部160aへ出力する。
[0059]
 なお、音声入力部150aは、音声認識機能により、予め設定された音声コマンドがユーザ音声データに含まれているかを逐次判断してもよい。そして、音声入力部150aは、音声コマンドが検出されたとき、その内容を示すコマンド情報を、操作入力部120aに出力してもよい。または、この音声コマンドを検出する機能は、操作入力部120aに搭載されていてもよい。
[0060]
 なお、会話モードにおけるユーザ音声データは、以下「会話音声データ」という。会話音声データは、実施の形態1において音声提供装置200から放送される「音声データ」に相当する。
[0061]
 操作入力部120aは、実施の形態1の操作入力部120の機能に加え、モード切替の操作を受け付け、モード切替操作情報を音声入力部150aへ出力する機能を有する。モード切替操作情報は、例えば、録音開始と録音終了のタイミングを指定する情報である。なお、モード切替が音声コマンドによって行われる場合、必ずしもこの機能は必要ではない。
[0062]
 発話者情報保持部130aは、実施の形態1の発話者情報保持部130の機能に加え、音声入力部150aから入力された発話者情報を保持する機能を有する。本実施の形態における発話者情報は、発話者名をユーザが読み上げた音声データ(以下「発話者情報音声データ」という)であるものとする。
[0063]
 送信部160aは、例えばインターネットに接続するためのネットワークデバイスを有し、音声入力部150aから入力される会話音声データを、音声提供装置200aへ送信する。このとき、送信部160aは、会話音声データに、発話者情報保持部130aに保持された発話者情報音声データを付加する。なお、本実施の形態に係る受信部110は、インターネットに接続するためのネットワークデバイスを有するものとする。
[0064]
 音声提供装置200aは、例えば、インターネット上に配置された、ファイルシステムおよびデータベース等を備えたコミュニケーションサーバである。音声提供装置200aは、ある多地点会議において、ある音声制御装置100aから会話音声データを受信したとき、その会話音声データを、多地点会議に参加する他の全ての音声制御装置100aへと転送する機能を有する。
[0065]
 このような音声制御装置100aは、発話者情報音声データを付加した会話音声データを、音声提供装置200aを介して、他の音声制御装置100aへ送信することができる。これにより、特に音声提供装置200aに発話者情報を会話音声データに付与する機能を用意する必要がなくなる。また、ユーザが自ら発話者情報を簡単に設定することができる。また、発話者情報を音声データとしたため、テキスト読み上げ機能を不要とすることができると共に、ユーザ本人の声を情報として付加することができる。
[0066]
 次に、音声制御装置100aの動作について説明する。
[0067]
 図6は、音声制御装置100aの動作の一例を示すフローチャートであり、実施の形態1の図3に対応するものである。図3と同一部分には同一符号を付し、これについての説明を省略する。
[0068]
 まず、音声入力部150aは、終了要求が無い場合(S1000:NO)、ステップS1100aにおいて、発話者情報入力モードであるか否かを判断する。音声入力部150aは、発話者情報入力モードである場合(S1100a:YES)、ユーザ音声データ(つまり発話者情報音声データ)を発話者情報保持部130aへ出力して、ステップS1200aへ進む。また、音声入力部150aは、発話者情報入力モードではない場合(S1100a:NO)、ユーザ音声データ(ここでは会話音声データとする)を送信部160aへ出力してステップS1300aへ進む。
[0069]
 ステップS1200aにおいて、発話者情報保持部130aは、入力された発話者情報音声データを保持して、ステップS1300aへ進む。発話者情報保持部130aは、過去の発話者情報音声データを新たに入力された発話者情報により上書きしてもよいし、複数種類の発話者情報音声データを保持してもよい。
[0070]
 ステップS1300aにおいて、送信部160aは、会話音声データが音声入力部150aから入力されたか否かを判断する。送信部160aは、会話音声データが入力された場合(S1300a:YES)、ステップS1400aへ進む。また、送信部160aは、会話音声データが入力されていない場合(S1300a:NO)、ステップS2000へ進む。
[0071]
 ステップS1400aにおいて、送信部160aは、入力された会話音声データに、発話者情報保持部130aに保持された発話者情報音声データを付加して音声提供装置200aへ送信し、ステップS2000へ進む。複数種類の発話者情報音声データが発話者情報保持部130aに保持されている場合、送信部160aは、ユーザ操作や送信先に応じて、使用する発話者情報音声データを切り替えてもよい。
[0072]
 ステップS2000以降の動作は実施の形態1と同様である。但し、音声制御装置100aは、音声提供装置200aから取得した発話者情報が発話者情報音声データであるため、読み上げ音声を生成せずに発話者情報から直接音声出力を行う。
[0073]
 このような動作により、音声制御装置100aは、発話者情報音声データを付加した会話音声データを送信することができる。
[0074]
 以上のように、本実施の形態に係る音声制御装置100aは、発話者情報を付加した会話音声データを送信するので、音声データが交換されるシステムに好適である。また、本実施の形態では、発話者音声データを用いるので、テキスト読み上げの機能を不要とすることができる。また、発話者情報音声データは、ユーザ自身の声の録音により作成されるので、ユーザが発話者をより直感的に認識することが可能となる。
[0075]
 なお、発話者情報は、必ずしも会話音声データを送信する毎に送信される必要はなく、例えば、会議の開始時に1回のみ送信されるようにしてもよい。発話者情報が毎回送信される場合、受信側で会話音声データの送信元と配置との対応付けを厳格に管理する必要がなくなるというメリットがあるが、受信側で一旦受信した各送信元の発話者情報を記憶しておく必要がある。また、発話者情報の送信回数を抑えた場合、通信負荷が軽減されるというメリットがある。
[0076]
 また、発話者情報は、送信側の音声制御装置100aではなく、音声提供装置200aにおいて管理されていてもよい。また、音声制御装置100aは、会話音声データを送信する毎に発話者情報を送信しない場合、発話者情報と会話音声データとを一意に対応付ける識別子を使用する必要がある。この識別子は、例えば、シリアル番号やMAC(media access control)アドレス等の音声制御装置100aが固有に保持している情報でもよい。あるいは、この識別子は、音声制御装置100aまたは音声提供装置200aによって設定された値であってもよい。
[0077]
 また、音声提供装置200aの機能は、1つまたは複数の音声制御装置100aに搭載されていてもよい。この場合、アドホックネットワーク環境が形成される。
[0078]
 また、以上説明した各実施の形態では、受信した音声データの音声出力がほぼリアルタイムに行われる場合について説明したが、必ずしもリアルタイムに行われなくてもよい。音声データを録音しておいて後で再生する場合等、受信時刻と音声出力時刻とが大きくずれる場合でも発話者情報を出力するために、受信部は、音声データの時刻に対応付けて、発話者情報を受信して発話者情報保持部に保持させればよい。そして、音声出力部は、出力中の音声データの時刻に対応する発話者情報を出力するようにすればよい。
[0079]
 また、以上説明した各実施の形態では、発話者情報は、発話者名等の発話者が誰であるかを特定することができる情報としたが、必ずしもこれに限定されない。同一の話者による発言であることを識別することのみが目的である場合、発話者情報は、番号やビープ音や音楽等の音声情報とすることができる。また、識別の対象となる音声は、必ずしも発言や会話の発話音声でなくてもよく、例えば、楽器演奏の音や歌声でもよい。また、識別の対象となる音声の出力元は、必ずしも人でなくてもよく、例えば、動物や車両でもよい。
[0080]
 2010年11月9日出願の特願2010-250892の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

産業上の利用可能性

[0081]
 本発明は、ユーザが知りたいと望む出力中の発話音声の発話者情報を、ユーザに対してより確実に通知することができる音声制御装置および音声制御方法として有用である。

符号の説明

[0082]
 100、100a 音声制御装置
 110 受信部
 120、120a 操作入力部
 130、130a 発話者情報保持部
 140 音声出力部
 150a 音声入力部
 160a 送信部
 200、200a 音声提供装置
 300 音声出力装置
 600a 音声入力装置

請求の範囲

[請求項1]
 発話音声を含む音声データを受信する受信部と、
 取得された前記音声データに基づいて前記発話音声を出力する音声出力部と、
 出力中の前記発話音声の発話者情報を保持する発話者情報保持部と、
 所定の操作を任意のタイミングで受け付ける操作入力部と、を有し、
 前記音声出力部は、
 前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力する、
 音声制御装置。
[請求項2]
 前記受信部は、
 前記音声データの時刻に対応付けて、前記発話者情報を受信して前記発話者情報保持部に保持させ、
 前記音声出力部は、
 出力中の音声データの時刻に対応する前記発話者情報を、前記発話者情報保持部から取得して音声で出力する、
 請求項1記載の音声制御装置。
[請求項3]
 前記受信部は、
 前記発話者情報に対応付けて、前記音声データの識別情報を取得して前記発話者情報保持部に保持させ、
 前記操作入力部は、
 前記識別情報を指定する操作を受け付け、
 前記音声出力部は、
 前記所定の操作が行われ、かつ、前記識別情報を指定する操作が行われたとき、出力中の前記発話音声の前記発話者情報のうち、指定された前記識別情報に対応する前記発話者情報を音声で出力する、
 請求項2記載の音声制御装置。
[請求項4]
 前記音声出力部は、
 前記受信部が複数の音声データを受信するとき、前記複数の音声データに基づく複数の前記発話音声を出力する、
 請求項3記載の音声制御装置。
[請求項5]
 前記識別情報は、方向に関する情報である、
 請求項4記載の音声制御装置。
[請求項6]
 前記操作入力部は、
 前記所定の操作が行われたとき、ユーザの顔の方向に関する情報を、前記指定された識別情報として取得する、
 請求項5記載の音声制御装置。
[請求項7]
 前記受信部は、
 前記複数の音声データの送信元を識別し、送信元毎に、前記ユーザに対する方向を示す配置情報を、前記識別情報として設定する、
 請求項6記載の音声制御装置。
[請求項8]
 前記ユーザの発話音声を含む音声データを取得する音声入力部と、
 取得された前記音声データを他の装置へ送信する送信部と、を有し、
 前記送信部は、
 前記音声データの時刻に対応付けて、前記ユーザを示す発話者情報を前記他の装置へ送信する、
 請求項1記載の音声制御装置。
[請求項9]
 前記操作入力部は、
 取得された前記音声データに含まれる特定の音声を、前記所定の操作とする、
 請求項8記載の音声制御装置。
[請求項10]
 発話音声を含む音声データを受信するステップと、
 取得された前記音声データに基づいて前記発話音声を出力するステップと、
 出力中の前記発話音声の発話者情報を保持するステップと、
 所定の操作を任意のタイミングで受け付けるステップと、
 前記所定の操作が行われたとき、出力中の前記発話音声の前記発話者情報を音声で出力するステップと、を有する、
 音声制御方法。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]