Traitement en cours

Veuillez attendre...

PATENTSCOPE sera indisponible durant quelques heures pour des raisons de maintenance le mardi 26.10.2021 à 12:00 PM CEST
Paramétrages

Paramétrages

Aller à Demande

1. WO2016117421 - DISPOSITIF D'ENTRÉE VOCALE, DISPOSITIF DE TRAITEMENT D'INFORMATIONS, PROCÉDÉ DE COMMANDE DE DISPOSITIF D'ENTRÉE VOCALE ET PROGRAMME DE COMMANDE

Document

明 細 書

発明の名称 音声入力装置、情報処理装置、音声入力装置の制御方法、制御プログラム

技術分野

0001  

背景技術

0002   0003  

先行技術文献

特許文献

0004  

発明の概要

発明が解決しようとする課題

0005   0006   0007  

課題を解決するための手段

0008   0009   0010  

発明の効果

0011  

図面の簡単な説明

0012  

発明を実施するための形態

0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082  

産業上の利用可能性

0083  

符号の説明

0084  

請求の範囲

1   2   3   4   5   6   7   8   9  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14  

明 細 書

発明の名称 : 音声入力装置、情報処理装置、音声入力装置の制御方法、制御プログラム

技術分野

[0001]
 本発明は、複数のマイクロフォンを備え、各マイクロフォンを制御する音声入力装置などに関する。

背景技術

[0002]
 複数のマイクロフォン(マイク)から入力した音声を効果的に用いて、音声に重畳している周囲の環境音(周辺環境ノイズ)を除去したり(ノイズ除去処理)、音声が室内の壁や天井に反射することで発生する残響音を除去したり(残響除去処理)、入力した音声から音源の位置を算出したり(音源定位処理)、特定方向から入力される音声のみを選択的に録音したり(音源分離処理)する方法が知られている。
[0003]
 例えば、特許文献1には、複数の音声チャンネルから入力された複数の音声信号のうち一つのチャンネルの音声信号と他の一つのチャンネルの音声信号の差信号と、差信号と内部発生信号の和信号とを入力とし、内部発生信号と相関のある信号を所望信号入力とする適応フィルタと、適応フィルタ内の可変フィルタの特性変化に伴って特性が変化し、音声信号を処理する可変フィルタとを備え、風雑音を効果的に低減する雑音除去装置が開示されている。

先行技術文献

特許文献

[0004]
特許文献1 : 日本国公開特許公報「特開2014-135712号公報(公開日:2014年 7月24日)
特許文献2 : 日本国公開特許公報「特開2007-147736号公報(公開日:2007年 6月14日)

発明の概要

発明が解決しようとする課題

[0005]
 しかしながら、上述のような従来技術は、複数のマイクから入力した音声を利用することにより行われる音声処理が常に適切に行われるように、該複数のマイクの割当てを適切に切り替えることができない、という問題がある。
[0006]
 例えば、特許文献1および2に記載されているノイズ除去処理では、複数のマイクから同時に集音された音声の音声信号を用いるものの、各マイクの役割り(主マイク、副マイクなど)の割当ては固定されており、処理対象の音声の入力を受け付けるときの装置の姿勢などの状態に合わせて、音声処理に用いるマイクを決定することはできない、という問題がある。
[0007]
 本発明は、上記の問題点を解決するためになされたものであり、その目的は、複数の音声入力部を備え、音声入力装置の状態に応じて、最適な音声入力部を主入力部に割当てることが可能な音声入力装置等を提供することである。

課題を解決するための手段

[0008]
 上記の課題を解決するために、本発明の一態様に係る音声入力装置は、音声の入力を受け付ける複数の音声入力部を備える音声入力装置であって、自装置の状態を示す状態情報を検知する状態検知部と、上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部とを備える。
[0009]
 また、上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声の入力を制御する情報処理装置であって、複数の音声入力部を備える音声入力装置の状態を示す状態情報を取得する状態情報取得部と、上記状態情報が示す上記音声入力装置の状態に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部とを備える。
[0010]
 また、本発明の一態様に係る音声入力装置の制御方法は、音声の入力を受け付ける複数の音声入力部を備える音声入力装置の制御方法であって、自装置の状態を示す状態情報を検知する状態検知ステップと、上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定ステップとを含む。

発明の効果

[0011]
 本発明の一態様によれば、音声入力装置の状態に応じて、該音声入力装置が備える複数の音声入力部のうち、どの音声入力部を主入力部に割当てるかを決定することができるという効果を奏する。

図面の簡単な説明

[0012]
[図1] 本発明の実施形態1に係る情報処理装置を内蔵する携帯端末の構成例を示すブロック図である。
[図2] 複数のマイクを備える携帯端末の外観と、各マイクの配置の一例を示す概略図である。
[図3] 傾きセンサから出力される、携帯端末の傾きを示す角度の一例を説明する概略図である。
[図4] (a)は割当てルールにおける主マイクおよび副マイクの組合せを規定するテーブルであり、(b)は、携帯端末の傾きを示す角度に応じて主/副マイクを割当てるときに参照される割当てルールの一例を示す図である。
[図5] 主/副マイクとして割当てられた各マイクの音響パラメータの設定例を示す図である。
[図6] 状態情報を用いて主マイク/副マイクの割当てを決定して録音する処理の流れを示すフローチャートである。
[図7] 実施形態2に係る携帯端末の外観の一例を示す概略図である。
[図8] 実施形態2に係る情報処理装置を内蔵する携帯端末の構成例を示すブロック図である。
[図9] 近接センサによって検知された状態情報を用いて主/副マイクを決定するときに参照される割当てルールの一例を示す図である。
[図10] 傾きセンサによって検知された状態情報、および把持センサによって検知された把持情報を用いて主/副マイクを決定するときに参照される割当てルールの一例を示す図である。
[図11] 携帯端末の姿勢が、録音中に変更された例を示す概略図である。
[図12] 録音中に携帯端末の姿勢が変化したとき、携帯端末がその姿勢の変化に追従して主マイク/副マイクの割当てを変更しながら録音する処理の流れを示すフローチャートである。
[図13] 携帯端末の外部に情報処理装置を設ける構成の一例を示すブロック図である。
[図14] 本発明に係る情報処理装置を適用することが可能なロボットの外観の一例を示す概略図である。

発明を実施するための形態

[0013]
 〔実施形態1〕
 以下、本発明の実施の形態について、詳細に説明する。
[0014]
 (携帯端末100、150、および200の外観)
 まず、本実施形態に係る情報処理装置10を内蔵する携帯端末100、150、および200の外観について、図2を用いて説明する。図2は、複数のマイクロフォン(マイク、音声入力部)を備える携帯端末100、150、および200の外観と、各マイクの配置の一例を示す概略図である。図2の(a)および(b)はマイクを3つ備える携帯端末100、(c)および(d)はマイクを2つ備える携帯端末150、(e)および(f)はマイクを4つ備える携帯端末200の外観を示す斜視図である。図2の(a)、(c)、および(e)は表示部31を含む面5a側から見た図であり、(b)、(d)、および(f)は表示部31を含む面5aに対向する面5b側から見た図である。
[0015]
 図2の(a)および(b)に示された携帯端末100、150、および200は、通信機能に加えて、動画撮影機能(カメラ機能)、音声入力機能(マイクなど)、および音声出力機能(スピーカなど)を有している。説明の簡略化のために、ここでは携帯端末100、150、および200が備えるカメラのレンズ、照明、電源ボタン、および音量調節ボタンなどの図示を省略している。以下では、図2の(a)及び(b)に示された携帯端末100について、詳細に説明する。なお、携帯端末150および携帯端末200も同様であるため、説明を省略する。
[0016]
 携帯端末100の本体は略直方体の形状であり、主に面5a~5fの6つの面から構成されている。図2に示す例では、面5aと面5b、面5cと面5d、および面5eと面5fは互いに対向する面である。なお、説明を簡略化するために、下記では各面を四角い平面であり、かつ携帯端末100の形状が直方体の場合を例に挙げているが、携帯端末100の形状は、任意の形状であってもよい。また、携帯端末100の各面は任意の形状であってもよく、平面であってもよいし所望の曲面であってもよい。
[0017]
 携帯端末100は、マイクM1~M3という3つのマイクを備えている。マイクM1は面5cに、マイクM2は面5aに、マイクM3は面5bに配置され、各マイクはそれぞれが向いている方向から該携帯端末100に到達する音声の入力を受け付ける。携帯端末100は、録音開始指示の入力を受け付けると、各マイクから入力されるユーザの発話音や周辺環境ノイズなどの音声データを用いて音声処理をして、処理後の音声を記憶(録音)することができる。携帯端末100は、各マイクから入力された音声に対して、ノイズ除去処理、残響除去処理、音源定位処理、および音源分離処理などの音声処理を行うことができる。なお、図2に示された各マイクの位置は例に過ぎず、音声処理を効果的に行うために好適なマイクの配置を任意に設定すればよい。
[0018]
 携帯端末100の本体内部には、携帯端末100の状態を検知するセンサ部4(状態検知部)が設けられている。センサ部4の一例としては、傾きセンサ41(状態検知部)が挙げられる。傾きセンサ41は、重力方向に対して携帯端末100がどれだけ傾いているかを検知するセンサであり、携帯端末100の傾きを示す2つの角度を出力してもよい。傾きセンサ41から出力される2つの角度は、傾斜角(Pitch、図3の(a)の角度α)、および回転角(Roll、図3の(b)の角度β)と呼ばれる角度であってもよい。この傾きセンサが検知する携帯端末100の傾き(傾き具合)については、後に説明する。
[0019]
 なお、センサ部4として、近接センサ、ジャイロセンサ(加速度センサ)、把持センサ、および照度センサなどを備えていてもよい。近接センサは、該近接センサからの距離が所定の距離よりも近くに存在する物体の存在を検知するセンサである。Gyroセンサは、加速度センサとも呼ばれ、携帯端末100の姿勢の変化に伴う加速度を検知するセンサである。把持センサは、携帯端末100の本体が把持されている状態を検知するセンサである。照度センサは、携帯端末100の周囲の明るさを検知する(あるいは照度を測定して出力する)センサである。
[0020]
 携帯端末100に対して録音の指示が入力されると、情報処理装置10は、携帯端末100の1または複数のセンサが検知した、該携帯端末100の状態に関連するセンサ信号を取得する。そして、情報処理装置10は、取得したセンサ信号に応じて、マイク1~3のうち、どのマイクを主マイク(主入力部)とし、どのマイクを副マイク(副入力部)とするか、を決定する。携帯端末100は、情報処理装置10が決定した主マイク、副マイクからそれぞれ入力した音声を用いて、ノイズ除去処理、残響除去処理、音源定位処理、および音源分離処理などの音声処理を行う。このように、情報処理装置10を備える携帯端末100は、録音指示の入力を受け付けたときの携帯端末100の状態に合わせて適切なマイクを主マイク、副マイクとして選定することができる。
[0021]
 (携帯端末の構成)
 次に、音声を処理する携帯端末100であって該携帯端末100が使用されているときの状態を検知するセンサ部4と、処理対象の音声の入力を受け付ける複数のマイクM1~M3(音声入力部)とを備える携帯端末100の構成例について、図1を用いて説明する。図1は、本実施形態1に係る情報処理装置10を内蔵する携帯端末100の構成例を示すブロック図である。なお、説明の簡略化のために、ここでは携帯端末100が備える通信・通話機能および撮影機能などの図示を省略している。
[0022]
 携帯端末100は、表示部31、センサ部4、情報処理装置10、マイクM1~M3、記憶部2を備えている。情報処理装置10は、割当て決定部12(状態情報取得部)を備えている。また、記憶部2は、割当てルール21、音響パラメータ22、および音声記憶部23を備えている。
[0023]
 表示部31は、画像などを表示するLCD(液晶ディスプレイ:Liquid Crystal Display)、PDP(プラズマディスプレイ:Plasma Display Panel)、または有機EL(Organic LED)などの、薄型フラットパネルディスプレイ(Flat Panel Display)である。例えば、表示部31は図示のように、タッチパネル31aが表示画面に重畳された液晶表示画面であってもよく、この場合、ユーザによる録音開始指示の入力を受け付ける操作入力部としての機能を有している。
[0024]
 センサ部4は、携帯端末100の状態を示す状態情報を検知するセンサを総称的に表した部材である。ここでは、センサ部4が該携帯端末100の本体が重力方向に対してどれだけ傾いているかを判別できる傾きセンサ41を含んでいる例を図示している。傾きセンサ41から出力される状態情報とは、例えば、傾斜角(図3の(a)の角度α)、および回転角(図3の(b)の角度β)の組であってもよいし、図2の(a)および(b)に示された面5a~5fのどの面が、重力方向において一番上に位置しているかを示す情報であってもよい。
[0025]
 割当て決定部12は、複数のマイク(例えば、マイクM1~M3)の中から、携帯端末100の状態を示す状態情報に対応付けられたマイクを、主音声の入力を受け付ける主マイクとして決定する。具体的には、割当て決定部12は、録音および処理の対象である音声が複数のマイク(例えば、マイクM1~M3)に入力するときの携帯端末100の状態を示す状態情報を傾きセンサ41から取得する。そして、割当て決定部12は、取得した状態情報に対応する割当てルール21を参照して、マイクM1~M3の中から、携帯端末100が処理する音声の基準として用いる主音声の入力を受け付ける主マイクとして用いるマイクを決定する。割当てルール21は、携帯端末100の姿勢などの状態と主マイクとして割当てられるマイクとの対応関係を規定するテーブルである。なお、情報処理装置10が、携帯端末100の状態を示す状態情報を傾きセンサ41から取得して割当て決定部12に該状態情報を送る機能を有する状態情報取得部(図示せず)を別個に備えていてもよい。
[0026]
 割当て決定部12は、さらに、主マイク以外の1または複数のマイクを、携帯端末100が主音声を処理するときに用いる副音声の入力を受け付ける副マイクとして決定してもよい。割当て決定部12が主マイク・副マイクとして割当てることを決定したマイクの情報は、音声処理部13に出力される。なお、主マイクおよび副マイクのいずれに割り当てられないマイクがあってもよい。
[0027]
 なお、割当て決定部12は、携帯端末100の状態を示す状態情報をセンサ部4とは異なる他の検知装置(図示せず)から取得してもよい。例えば、センサ部4が携帯端末100と別体として構成されてもよい。
[0028]
 音声処理部13は、マイクM1~M3からの音声を取得し、それらの音声を用いて音声処理後の音声を生成する。音声処理部13が生成した処理後の音声は、音声記憶部23に格納(録音)されてもよいし、音声出力部(図示せず)から外部に出力されてもよい。音声処理部13が音声処理を行うときに、記憶部2の音響パラメータ22を参照してもよい。なお、音響パラメータ22については具体例を挙げて後に説明する。
[0029]
 音声処理部13が行う音声処理(プリプロセッシング処理)としては、例えば、入力した音声に重畳している周辺環境ノイズを除去するノイズ除去処理が挙げられる。この場合、音声処理部13はノイズキャンセルエンジンである。しかし、音声処理部13が行う音声処理はノイズ除去処理に限定されず、音声が室内の壁や天井に反射することで発生する残響音を除去する残響除去処理、入力した音声から音源の位置を算出する音源定位処理、および特定方向から入力される音声のみを選択的に録音する音源分離処理などであってもよい。これらの音声処理によって録音された音声データは、音声認識、音声通話、ボイスメモなどのアプリケーションにおいて好適に使用される。
[0030]
 例えば、入力した音声に重畳している周辺環境ノイズを除去するには、主マイクから入力する音声に加えて、1または複数の副音声を用いることによって、より効果的にノイズ除去処理を行うことができる。以下では、音声処理部13がノイズ除去機能を行うときに、携帯端末100が備える3つのマイク(M1~M3)のうち、主マイクおよび副マイクをそれぞれ1つずつ決定する場合について説明する。しかし、これは一例であり、主マイクおよび副マイクの数はそれぞれ複数であってもよい。このような場合には、割当て決定部12によって、主マイクに加え、副マイクも決定されることが好ましい。
[0031]
 なお、割当て決定部12は、主マイクを除いた、携帯端末100が備える一部または全部のマイクを、副音声の入力を受け付ける副マイクとして割当てることに限定されない。例えば、割当て決定部12は、主マイクを除いた、携帯端末100が備える一部または全部のマイクを、所望の目的に用いる音声の入力を受け付けるためのマイクとして割当ててもよい。
[0032]
 (主マイクの割当てルール)
 以下では、傾きセンサ41によって検知された携帯端末100の状態情報に基づいて、該携帯端末100が備えるマイクM1~マイクM3のうち、どのマイクを主マイクとして割当てるかを規定している割当てルールの一例について説明する。
[0033]
 まず、携帯端末100が備える傾きセンサ41によって検知される、携帯端末100の傾きを示す角度について図3を用いて説明する。図3は、傾きセンサ41から出力される、携帯端末100の傾きを示す角度の一例を説明する概略図である。図3では、重力に平行な方向(重力方向)をZ軸とし、重力に垂直な平面(水平面)をXY平面として表している。
[0034]
 図3の(a)では、携帯端末100を面5eの面の側から見たときの様子を示し、図3の(b)では、携帯端末100を面5dの面の側から見たときの様子を示している。傾きセンサ41は、携帯端末100の本体がY軸となす角度α(傾斜角)、および携帯端末100の本体がX軸となす角度β(回転角)とを出力するセンサである。
[0035]
 続いて、傾きセンサ41から出力される角度αおよび角度βに応じて、主マイクおよび副マイクを割当てるルールを規定する割当てルール21について、図4を用いて説明する。図4の(a)は割当てルールにおける主マイクおよび副マイクの組合せを規定するテーブルであり、(b)は、携帯端末の傾きを示す角度に応じて主/副マイクを割当てるときに参照される割当てルールの一例を示す図である。図4の(b)に示された割当てルール21は、傾きセンサが検知したセンサ信号に基づいて、マイクM1~M3の中から主マイクおよび副マイクをそれぞれ決定するために必要な、傾きセンサ41が検知した傾きと主マイクおよび副マイクの組合せとの対応関係を予め規定しているテーブルである。
[0036]
 ここで、主マイクとは携帯端末100が処理する音声の基準として用いる主音声の入力を受け付けるマイクであり、副マイクとは、携帯端末100が主音声の処理を行うときに用いる副音声の入力を受け付けるマイクである。より具体的には、主マイクは、音声処理において基準音声として用いる音声の入力を受け付けるマイクであり、副マイクは、音声処理において基準音声との周波数の差、位相の差、到達時刻の差などを算出するために用いられる音声の入力を受け付けるマイクである。なお、ノイズ除去処理入力した音声に重畳している周辺環境ノイズを除去する場合には、適切な副マイクを選択することが重要である。
[0037]
 例えば、携帯端末100を片手で把持するユーザが立位で表示部31の情報を目視しているときに、録音開始指示を受け付けた場合、携帯端末100の姿勢は、図3の(a)に示すように面5dが一番上に位置する姿勢である。このとき割当て決定部12は、傾きセンサ41から角度αとして45°以上90°未満の値、角度βとして0°を取得する。割当て決定部12は、図4の(b)の割当てルール21を参照して、主マイクおよび副マイクの組合せを取得した角度αおよび角度βに対応する「組合せA」と決定し、主マイクおよび副マイクの割当ては音声処理部13に出力する。「組合せA」とは、主マイクとしてマイクM2、副マイクとしてマイクM1を割当てる組合せである(図4の(a)参照)。
[0038]
 例えば、携帯端末100が表示部31を上にして机の上に置かれているときに、録音開始指示を受け付けた場合、携帯端末100の姿勢は、面5aが一番上に位置する姿勢である。このとき割当て決定部12は、傾きセンサ41から角度αとして0°、角度βとして0°を取得する。割当て決定部12は、図4の(b)の割当てルール21を参照して、主マイクおよび副マイクの組合せを「組合せA」と決定して、主マイクとしてマイクM2、副マイクとしてマイクM1を割当てる。
[0039]
 このように、携帯端末100が備える複数のマイクM1~M3のうち、どのマイクを主マイクとして割当てるかを、携帯端末100の傾きを参照して決定する。これにより、録音開始指示を受け付けたときの携帯端末100の姿勢に合わせて、音声の入力に最適なマイクを主マイクとして決定することができる。また、主マイクとして決定されたマイクの他のマイクのうち、録音開始指示を受け付けたときの携帯端末100の姿勢に合わせて、適切な位置のマイクを副マイクとして決定することもできる。
[0040]
 (音響パラメータ22)
 次に、携帯端末100において、主マイクおよび副マイクとしてそれぞれ1つのマイクを割当てる場合における各マイクの音響パラメータ22について図5を用いて説明する。図5は、主/副マイクとして割当てられた各マイクの音響パラメータの設定例を示す図である。ここでは、音響パラメータ22の例として、主マイクおよび副マイクのゲインを規定する例について示している。図5に示すように、主マイクおよび副マイクに割当てられるマイクによって、各マイクのゲインを変えてもよい。音声処理部13は音響パラメータ22に従って、主マイクのゲイン、副マイクのゲインをそれぞれ適切に調節することにより、効果的に音声処理を行うことができる。
[0041]
 なお、音響パラメータは、これに限定されない。例えば、主マイクおよび副マイクのそれぞれに対して、各種周波数フィルタまたはDRC(Dynamic Range Controller)のパラメータを個別に設定できるため、これらのパラメータを、主マイクおよび副マイクの割当てたときの音響パラメータとしてもよい。
[0042]
 (携帯端末100による録音処理の流れ)
 ここでは、携帯端末100による録音処理の流れについて図6を用いて説明する。図6は、状態情報を用いて主マイク/副マイクの割当てを決定して録音する処理の流れを示すフローチャートである。
[0043]
 割当て決定部12は、傾きセンサ41によって検知された携帯端末100の傾きを示す角度(図3参照)を取得する(S101:状態検知ステップ)。次に、割当て決定部12は、割当てルール21を参照して、取得した携帯端末100の傾きを示す角度に応じて、主マイク、副マイクとして割当てられるマイクを決定する(S102:割当て決定ステップ)。音声処理部13は、割当て決定部が決定した主マイクおよび副マイクの情報を取得し、この主マイク・副マイクの組合せに対応するゲインを音響パラメータ22から選択する(S103)。音声処理部13は、割当て決定部12が決定した主マイクおよび副マイクのゲインを設定し、主マイクおよび副マイクから入力する音声の処理・録音を開始する(S104)。
[0044]
 このように、録音開始時の携帯端末100の状態を参照して、主マイクおよび副マイクを決定するため、録音対象の音声の音声処理に用いる基準音声の入力を受け付ける主マイクを適切に決定することができる。
[0045]
 〔実施形態2〕
 本発明の他の実施形態について、図7~図9に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[0046]
 (携帯端末250の外観)
 携帯端末250(音声入力装置)は、面5b側に向けて設けられたマイクM3と同じ側で、かつ携帯端末250近傍に物体が存在するか否かを検知する近接センサ42(状態検知部)を備えている。図7は、近接センサ42を備える携帯端末250の外観の一例を示す概略図である。近接センサ42は、携帯端末250が表示部31を上にして机の上に置かれた時や、携帯端末250を把持するユーザの手がマイクM3近傍に存在する時などに、近接する物体有りと検知するセンサである。なお、近接センサ42の代わりに測距センサを備える構成であってもよい。
[0047]
 (携帯端末250の構成)
 続いて、携帯端末250の構成について図8を用いて説明する。図8は、携帯端末250は、センサ部4に、傾きセンサ41に加え、近接センサ42および把持センサ43(状態検知部)を備えている。近接センサ42は、録音開始指示が入力されたとき、録音および処理の対象である音声が複数のマイク(マイクM1~M3)に入力するときの携帯端末250から所定の距離未満の位置に存在する物体の有無について検知する。
[0048]
 割当て決定部12(状態情報取得部)は、近接センサ42からの距離が所定値未満である位置に物体があるか否かを示す情報、すなわち、携帯端末250の近傍に存在する物体の有無についての情報を取得し、該情報に対応する割当てルール21を参照して、マイクM1~M3の中から、携帯端末250が処理する音声の基準として用いる主音声の入力を受け付ける主マイクとして用いるマイクを決定する。
[0049]
 携帯端末250の割当て決定部12が参照する割当てルール21について、図9を用いて説明する。図9は、近接センサ42によって検知された状態情報を用いて主/副マイクを決定するときに参照される割当てルール21の一例を示す図である。ここでは、近接センサ42と検出対象の物体との距離が、所定値(例えば、1cm)未満であるときは、近接センサによる物体の検知「有り」とし、所定値以上であるときは「無し」として表している。例えば、携帯端末250が表示部31を上にして机の上に置かれているときに、録音開始指示を受け付けた場合、携帯端末250の近接センサ42と机の表面との距離が所定値未満であるため、割当て決定部12は近接センサによる物体の検知「有り」を取得し、図9の割当てルール21を参照して、主マイクとしてマイクM2を、副マイクとしてマイクM1を割当てる。
[0050]
 (携帯端末250による録音処理の流れ)
 続いて、携帯端末250による録音処理の流れについて説明する。割当て決定部12は、近接センサ42によって検知された携帯端末250の近接センサ42からの距離が所定値未満の位置に存在する物体の有無を示す情報(状態情報)を取得する(状態検知ステップ)(図6のS101に対応)。割当て決定部12は、図9に示す割当てルール21を参照して、該状態情報に応じて、主マイク、副マイクとして割当てられるマイクを決定する(割当て決定ステップ)(図6のS102に対応)。音声処理部13は、割当て決定部12が決定した主マイクおよび副マイクの割当てを示す情報を取得し、この主マイク・副マイクの組合せに対応するゲインを音響パラメータ22から選択する(図6のS103に対応)。音声処理部13は、割当て決定部12が決定した主マイクおよび副マイクのゲインを設定し、主マイクおよび副マイクから入力する音声の処理・録音を開始する(図6のS104に対応)。
[0051]
 このように、近接センサ42によって検知された状態情報を参照して主マイクおよび副マイクを決定することにより、例えば、携帯端末250が表示部31を上にして机の上に置かれているときのマイクM3のように、音声処理に用いる音声の入力を受け付けるには不適当なマイクは主マイクおよび副マイクのいずれにも割当てないようにすることができる。
[0052]
 (センサ部4の複数のセンサを用いた、主マイクの割当て)
 本実施形態に係る携帯端末250は、センサ部4として傾きセンサ41に加え、更に近接センサ42、および把持センサ43を備えている。把持センサ43は、例えば面5eおよび面5fに設けられていていてもよい。携帯端末250は、該携帯端末250の状態を複数のセンサによって検知された状態情報を利用して、適切な主/副マイクの割当てを行うことができる。ここでは、音声の処理を行うための主マイクおよび副マイクの割当てを、傾きセンサ41から取得する携帯端末250の傾きを示す角度に加え、把持センサ43によって検知された把持情報(状態情報)も用いて決定する場合について、図10を用いて以下に簡単に説明する。
[0053]
 図10は、傾きセンサ41によって検知された状態情報、および把持センサ43によって検知された把持情報を用いて主/副マイクを決定するときに参照される割当てルール21の一例を示す図である。
[0054]
 録音開始指示を受け付けたときの携帯端末100の傾きを示す角度に傾きと主マイクおよび副マイクの組合せとの対応関係に基づいて、図10の「組合せ種別」が決定されるまでの処理は、図4の(b)の割当てルール21を参照する携帯端末100と同じである。携帯端末250の割当て決定部12はさらに把持センサ43が検知した、ユーザによる把持の有無に関する把持情報を取得する。
[0055]
 例えば、携帯端末250を把持するユーザが仰向けに横になり、携帯端末250の表示部31を見ながら操作するような場合と、机の上に携帯端末250を、表示部31を下にして置いた場合とは、マイクM3が設けられている面5eが最上面となる点で同様の傾き(姿勢)であり得る。そこで、携帯端末250では、傾きセンサ41によって検知される携帯端末250の傾きを示す角度に加えて、把持センサ43によって検知された把持情報も合わせて参照する。これにより、携帯端末250は自端末の状態をより正確に判別することができるため、主マイクとして割当てるマイク、および副マイクとして割当てるマイクとを適切に決定することができる。
[0056]
 携帯端末250を把持するユーザが仰向けに横になり、携帯端末250の表示部31を見ながら操作するような場合の例について以下に説明する。傾きセンサ41からの角度のみを参照した場合、このときの携帯端末250の傾きから選択される組合せ種別は「組合せC」である。すなわち、主マイクとして表示部31を見ているユーザとは反対側に位置する面5bに設けられたマイクM3を割当ててしまう。しかし、この携帯端末250が、ユーザによって把持されている状態であることを、傾きセンサ41からの角度と組合せて参照すれば(「組合せC」+「有り」)、主マイクとして、マイクM3ではなくマイクM1を割当て、副マイクとしてマイクM3を割当てることができる。
[0057]
 ここでは、傾きセンサ41からの状態情報および把持センサ43からの状態情報を組み合わせて、主マイクとしてどのマイクを割当てるかを決定する例を説明したがこれに限定されず、携帯端末250の状態を示す1または複数の状態情報を任意に組み合わせて、主マイクの割当てを決定してもよい。
[0058]
 〔実施形態3〕
 例えば、図11に示すように、音声の処理・録音中に携帯端末250の姿勢が(a)に示す姿勢(第1状態)から(b)に示す姿勢(第2状態)に変更される場面が考えられる。携帯端末250の割当て決定部12(状態情報取得部)が、所定の時間間隔(50ms)でセンサ部4から出力される、携帯端末250の状態を示す状態情報を取得する構成であってもよい。このような場合においても、携帯端末250の姿勢が変化しても、割当て決定部12は、その姿勢の変化に適切に追従して、主マイクとして用いるマイクを動的に割当てる(切り替える)ことができる。
[0059]
 図12は、録音中に携帯端末250の姿勢が変化したとき、携帯端末250がその姿勢の変化に追従して主マイク/副マイクの割当てを変更しながら録音する処理の流れを示すフローチャートである。携帯端末250は、録音が終了していなければ(S305においてNO)、S301に戻り、割当て決定部12が傾きセンサ41から携帯端末250本体の傾きを示す角度を取得し、携帯端末250の傾きに応じて主マイク、副マイクを決定する(S302:割当て決定ステップ)。
[0060]
 なお、携帯端末250の姿勢の変化に追従して、主マイクおよび副マイクとして割当てられたマイクの変化に合わせて音響パラメータ22を変更する構成であってもよい。
[0061]
 〔実施形態4〕
 情報処理装置15を携帯端末500に内蔵させずに、携帯端末500の外部に設ける構成であってもよい。このような実施形態について、図13に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。図13は、携帯端末500の外部に情報処理装置15を設ける構成の一例を示すブロック図である。
[0062]
 情報処理装置15は、1または複数の携帯端末500およびサーバ600と有線または無線による通信可能であり、例えば、インターネットなどを介して携帯端末500およびサーバ600と接続可能に構成されてもよい。すなわち、情報処理装置15は、情報処理装置通信部151(状態情報取得部)を備えており、この情報処理装置通信部151を介して、各携帯端末500が備えるマイクの位置(例えば、マイクM1~M3の位置)、マイクの数、各携帯端末500の状態を検知するセンサ部4として適用されているセンサの種類などの情報、および各携帯端末500の状態を示す状態情報を取得する。また、情報処理装置15は、情報処理装置通信部151を用いて、割当て決定部152が決定した該状態情報に対応する主マイクおよび副マイクの割当てを示すマイク割当ての情報(制御情報)を、各携帯端末500に送信する。これにより、1または複数の携帯端末500のマイクの割当てを遠隔的に制御することができる。
[0063]
 〔変形例〕
 〔ヒト型ロボットに情報処理装置15を適用する例〕
 本発明に係る情報処理装置10、15は、図2に示す携帯端末100などのような直方体の音声入力装置に限定されず、例えば、腕時計型、眼鏡型、ペン型、椅子型、ヒト(ペット)型の音声入力装置などに適用可能である。その一例として、ここでは音声入力装置がヒト型のロボット700である場合を例に挙げて説明する。
[0064]
 図14は、ロボット700の外観の一例を示す概略図である。ロボット700が情報処理装置10を内蔵する構成でもよいし、ロボット700の外部に情報処理装置15が設けられた構成であってもよい。
[0065]
 例えば、情報処理装置10をロボット700の内部に設けた場合、割当て決定部12(状態情報取得部)は、ロボット700の胴体部、頭部、四肢の傾き、および姿勢などのロボット700の状態を検知するセンサ部4(上述のような任意のセンサ)によって検知される状態情報を取得し、割当てルール21を参照して、取得した状態情報に対応する主マイク(および副マイク)をマイクMa~Mdの中から決定する。割当てルール21には、主マイクとして割当てるマイク、および副マイクとして割当てるマイクが、ロボット700が取り得る姿勢毎に予め規定されている(図示せず)。例えば、1つの主マイク、および2つの副マイクを決定する場合、ロボット700が両方の脚部74で立っている姿勢の場合には、マイクMbが主マイク、マイクMcとマイクMdが副マイクとして割当てられ、ロボット700が仰向けに寝ている場合には、マイクMbが主マイク、マイクMaとマイクMcが副マイクとして割当てられる。
[0066]
 なお、ロボット700が頭部71を動かしたり、歩行する方向を変更したりしたときなどのロボット700の姿勢の変化に追従して、割当て決定部12が、適宜ロボット700の状態を示す状態情報を取得し、主マイクとして割当てるマイク、および副マイクとして割当てるマイクを決定し、決定したマイク割当ての情報をロボット700へと出力(送信)してもよい。この構成により、例えばロボット700が、自走式ロボットであったり、自身の姿勢を自動的に変更可能であったりする場合にも、ロボット700が備える複数のマイクの中から主マイクとして割当てるマイクを動的に変更することができる。
[0067]
 〔ソフトウェアによる実現例〕
 情報処理装置10の制御ブロック(特に、割当て決定部12)および情報処理装置15の制御ブロック(特に、割当て決定部152)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[0068]
 後者の場合、情報処理装置10および15は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
[0069]
 〔まとめ〕
 本発明の態様1に係る音声入力装置(携帯端末100、150、200、250、500、ロボット700)は、音声の入力を受け付ける複数の音声入力部(マイクM1~M3、M1a、M1b、Ma~Md)を備える音声入力装置であって、自装置の状態を示す状態情報を検知する状態検知部(センサ部4)と、上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部12、152とを備える。
[0070]
 上記の構成によれば、音声入力装置の状態を示す状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する。これにより、音声入力装置の状態に応じて、該音声入力装置が備える複数の音声入力部のうち、どの音声入力部を主入力部に割当てるかを決定することができる。よって、音声入力装置の状態(例えば、音声入力装置の姿勢や該音声入力装置の周囲の物体との位置関係など)に合わせて、主入力部を適切に決定することができるため、効果的に音声を処理することが可能である。
[0071]
 本発明の態様2に係る音声入力装置は、上記態様1において、上記割当て決定部は、上記主入力部を除いた一部または全部の上記音声入力部を、副音声の入力を受け付ける副入力部として決定してもよい。
[0072]
 主音声に加えて副音声も用いることによって、より効果的な音声処理が可能となる場合があることが知られている。上記の構成によれば、主入力部を除いた一部または全部の上記音声入力部を、副音声の入力を受け付ける副入力部として決定する。これにより、適切に主入力部および副入力部を決定して、主音声および副音声を用いた効果的な音声処理を行うことができる。
[0073]
 本発明の態様3に係る音声入力装置は、上記態様1または2において、上記割当て決定部は、上記音声入力部が音声の入力を受け付けている間、上記状態情報を取得しており、上記音声入力部が音声の入力を受け付けている間に、上記状態情報が示す上記音声入力装置の状態が変化したとき、上記割当て決定部は、上記音声入力装置の変化後の状態に対応付けられた上記音声入力部に上記主入力部を切り替えてもよい。
[0074]
 上記の構成によれば、上記状態情報が示す上記音声入力装置の状態が変化したとき、上記音声入力装置の変化後の状態に対応付けられた音声入力部に上記主入力部を切り替える。例えば、上記割当て決定部は、上記音声入力部が電話や音声録音等の音声の入力を必要とする処理が動作していて、音声の入力を受け付けている間、上記状態情報を取得しており、上記音声入力部が音声の入力を受け付けている間に、上記状態情報が示す上記音声入力装置の状態が変化したとき、上記割当て決定部は、上記音声入力装置の変化後の状態に対応付けられた音声入力部に上記主入力部を切り替えてもよい。これにより、音声入力装置の状態が変化しても、その状態の変化に適切に追従して、主入力部として用いる音声入力部を割当てることができる。
[0075]
 本発明の態様4に係る音声入力装置は、上記態様1から3のいずれかにおいて、上記状態情報は、上記音声入力装置の傾き具合を示す情報であってもよい。これにより、音声入力装置の傾き具合に応じて主入力部となる音声入力部を割当てることができる。
[0076]
 本発明の態様5に係る音声入力装置は、上記態様1から3のいずれかにおいて、上記状態情報は、上記音声入力装置からの距離が所定値未満である位置に物体があるか否かを示す情報であってもよい。これにより、音声入力装置からの距離が所定の距離よりも近くに存在する物体の有無に応じて主入力部となる音声入力部を割当てることができる。
[0077]
 本発明の態様6に係る音声入力装置は、上記態様1から3のいずれかにおいて、上記状態情報は、上記音声入力装置が把持されていることを示す情報であってもよい。これにより、音声入力装置が把持されている状態か否かに応じて主入力部となる音声入力部を割当てることができる。
[0078]
 本発明の態様7に係る情報処理装置10、15は、音声の入力を制御する情報処理装置であって、複数の音声入力部(マイクM1~M3、M1a、M1b、Ma~Md)を備える音声入力装置(携帯端末100、150、200、250、500、ロボット700)の状態を示す状態情報を取得する状態情報取得部(割当て決定部12、152、情報処理装置通信部151)と、上記複数の音声入力部の中から、上記状態情報が示す上記音声入力装置の状態に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部12、152と、を備える。
[0079]
 上記の構成によれば、音声入力装置の状態を示す状態情報を取得して、音声入力装置の状態に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する。これにより、音声入力装置の状態に応じて、該音声入力装置が備える複数の音声入力部のうち、どの音声入力部を主入力部に割当てるかを決定することができる。よって、音声入力装置の状態(例えば、音声入力装置の姿勢や該音声入力装置の周囲の物体との位置関係など)に合わせて、主入力部を適切に決定することができるため、効果的に音声を処理することが可能である。
[0080]
 本発明の態様8に係る音声入力装置の制御方法は、音声の入力を受け付ける複数の音声入力部を備える音声入力装置の制御方法であって、音声入力装置の状態を示す状態情報を検知する状態検知ステップと、上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定ステップとを含む。この構成によれば、上記態様1と同様の効果を奏する。
[0081]
 本発明の各態様に係る音声入力装置および情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声入力装置および上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記音声入力装置および上記情報処理装置をコンピュータにて実現させる音声入力装置および情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
[0082]
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

産業上の利用可能性

[0083]
 本発明は、複数のマイクから入力する音声に対する音声処理を行う音声入力装置に利用することができる。

符号の説明

[0084]
  4 センサ部(状態検知部)
 10、15 情報処理装置
 12、152 割当て決定部(状態情報取得部)
 151 情報処理装置通信部(状態情報取得部)
 41 傾きセンサ(状態検知部)
 42 近接センサ(状態検知部)
 43 把持センサ(状態検知部)
100、150、200、250、500 携帯端末(音声入力装置)
700 ロボット(音声入力装置)
 M1~M3、M1a、M1b、Ma~Md マイク(音声入力部)
S101、S301 状態検知ステップ
S102、S302 割当て決定ステップ

請求の範囲

[請求項1]
 音声の入力を受け付ける複数の音声入力部を備える音声入力装置であって、
 自装置の状態を示す状態情報を検知する状態検知部と、
 上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部とを備える
ことを特徴とする音声入力装置。
[請求項2]
 上記割当て決定部は、上記主入力部を除いた一部または全部の上記音声入力部を、副音声の入力を受け付ける副入力部として決定することを特徴とする請求項1に記載の音声入力装置。
[請求項3]
 上記割当て決定部は、上記音声入力部が音声の入力を受け付けている間、上記状態情報を取得しており、
 上記音声入力部が音声の入力を受け付けている間に、上記状態情報が示す上記音声入力装置の状態が変化したとき、上記割当て決定部は、上記音声入力装置の変化後の状態に対応付けられた上記音声入力部に上記主入力部を切り替える
ことを特徴とする請求項1または2に記載の音声入力装置。
[請求項4]
 上記状態情報は、上記音声入力装置の傾き具合を示す情報である
ことを特徴とする請求項1から3のいずれか1項に記載の音声入力装置。
[請求項5]
 上記状態情報は、上記音声入力装置からの距離が所定値未満である位置に物体があるか否かを示す情報である
ことを特徴とする請求項1から3のいずれか1項に記載の音声入力装置。
[請求項6]
 上記状態情報は、上記音声入力装置が把持されていることを示す情報である
ことを特徴とする請求項1から3のいずれか1項に記載の音声入力装置。
[請求項7]
 音声の入力を制御する情報処理装置であって、
 複数の音声入力部を備える音声入力装置の状態を示す状態情報を取得する状態情報取得部と、
 上記状態情報が示す上記音声入力装置の状態に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定部とを備える
ことを特徴とする情報処理装置。
[請求項8]
 音声の入力を受け付ける複数の音声入力部を備える音声入力装置の制御方法であって、
 自装置の状態を示す状態情報を検知する状態検知ステップと、
 上記複数の音声入力部の中から、上記状態情報に対応付けられた音声入力部を、主音声の入力を受け付ける主入力部として決定する割当て決定ステップとを含む
ことを特徴とする音声入力装置の制御方法。
[請求項9]
 請求項1に記載の音声入力装置としてコンピュータを機能させるための制御プログラムであって、上記割当て決定部としてコンピュータを機能させるための制御プログラム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]