Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2014175076 - DISPOSITIF DE TRAITEMENT AUDIO ET SYSTÈME DE TRAITEMENT AUDIO

Document

明 細 書

発明の名称 音声処理装置および音声処理システム

技術分野

0001  

背景技術

0002   0003  

先行技術文献

非特許文献

0004  

発明の概要

発明が解決しようとする課題

0005   0006   0007   0008  

課題を解決するための手段

0009   0010   0011   0012   0013   0014   0015   0016   0017  

発明の効果

0018  

図面の簡単な説明

0019  

発明を実施するための形態

0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177   0178   0179   0180   0181   0182   0183  

符号の説明

0184  

請求の範囲

1   2   3   4   5   6   7   8  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16  

明 細 書

発明の名称 : 音声処理装置および音声処理システム

技術分野

[0001]
 本技術は音声処理装置および音声処理システムに関し、特に、音像の定位をより安定させることができるようにした音声処理装置および音声処理システムに関する。

背景技術

[0002]
 従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP(Vector Base Amplitude Pannning)が知られている(例えば、非特許文献1参照)。
[0003]
 VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある2つまたは3つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される音声のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。

先行技術文献

非特許文献

[0004]
非特許文献1 : Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997

発明の概要

発明が解決しようとする課題

[0005]
 しかしながら、上述した技術では、目標とする位置に音像を定位させることはできるが、その定位位置によっては、音像の定位が不安定となってしまうことがあった。
[0006]
 例えば、3つのスピーカを用いてVBAPを行なう3次元VBAPでは、目標とする音像の定位位置によっては、3つのスピーカのうち、2つのスピーカのみから音声が出力され、残りの1つのスピーカからは音声が出力されないように制御される場合がある。
[0007]
 そのような場合、音声を聴いているときにユーザが移動すると、その移動方向とは異なる方向に音像が移動し、音像の定位が不安定であると知覚されてしまうことがある。このように音像の定位が不安定となると、最適な視聴位置であるスイートスポットの範囲が狭くなってしまう。
[0008]
 本技術は、このような状況に鑑みてなされたものであり、音像の定位をより安定させることができるようにするものである。

課題を解決するための手段

[0009]
 本技術の一側面の音声処理装置は、4以上の音声出力部と、目標とする音像定位位置近傍に位置する前記4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部とを備える。
[0010]
 少なくとも4以上の前記出力ゲインの値が0でない値とされる。
[0011]
 前記ゲイン算出部には、仮想的な音声出力部および2つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記仮想的な音声出力部および前記2つの前記音声出力部の前記出力ゲインを算出する第1のゲイン算出部と、前記2つの前記音声出力部とは異なる他の2つの前記音声出力部と、前記仮想的な音声出力部との位置関係に基づいて、前記仮想的な音声出力部の位置に音像を定位させるための前記他の2つの前記音声出力部のゲインを算出する第2のゲイン算出部と、前記他の2つの前記音声出力部のゲインと、前記仮想的な音声出力部の前記出力ゲインとに基づいて、前記他の2つの前記音声出力部の前記出力ゲインを算出する演算部とを設けることができる。
[0012]
 前記演算部には、前記他の2つの前記音声出力部のゲインに前記仮想的な音声出力部の前記出力ゲインを乗算することにより、前記他の2つの前記音声出力部の前記出力ゲインを算出させることができる。
[0013]
 前記仮想的な音声出力部の位置を、前記4以上の前記音声出力部を頂点とする多角形の辺上に位置するように定めることができる。
[0014]
 前記ゲイン算出部には、3つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記3つの前記音声出力部の前記出力ゲインを算出する仮ゲイン算出部と、互いに異なる前記組み合わせについて前記出力ゲインを算出する複数の前記仮ゲイン算出部により算出された前記出力ゲインに基づいて、前記音声出力部の最終的な前記出力ゲインを算出する演算部とを設けることができる。
[0015]
 前記演算部には、同じ前記音声出力部について求められた前記出力ゲインの和を求めることで、前記音声出力部の最終的な前記出力ゲインを算出させることができる。
[0016]
 本技術の一側面の音声処理システムは、4以上の音声出力部と、目標とする音像定位位置近傍に位置する前記4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部とを含む。
[0017]
 本技術の一側面においては、目標とする音像定位位置近傍に位置する4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインが求められ、前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整が行なわれる。

発明の効果

[0018]
 本技術の一側面によれば、音像の定位をより安定させることができる。

図面の簡単な説明

[0019]
[図1] 2次元VBAPについて説明する図である。
[図2] 3次元VBAPについて説明する図である。
[図3] スピーカ配置について説明する図である。
[図4] 4つのスピーカが配置されている場合におけるゲイン算出方法について説明する図である。
[図5] 音像の移動について説明する図である。
[図6] 本技術を適用した場合における音像の移動について説明する図である。
[図7] 本技術によるゲインの算出について説明する図である。
[図8] 本技術によるゲインの算出について説明する図である。
[図9] 音声処理装置の構成例を示す図である。
[図10] ゲイン算出部の構成例を示す図である。
[図11] 音像定位制御処理を説明するフローチャートである。
[図12] スピーカのゲインの他の算出方法について説明する図である。
[図13] ゲイン算出部の他の構成例を示す図である。
[図14] 音像定位制御処理を説明するフローチャートである。
[図15] スピーカのゲインの算出方法について説明する図である。
[図16] コンピュータの構成例を示す図である。

発明を実施するための形態

[0020]
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
[0021]
〈第1の実施の形態〉
〈本技術の概要について〉
 まず、図1乃至図8を参照して、本技術の概要について説明する。なお、図1乃至図8において、対応する部分には同一の符号を付してあり、その説明は適宜省略する。
[0022]
 例えば、図1に示すように、音声付の動画像や楽曲などのコンテンツを視聴するユーザU11が、2つのスピーカSP1およびスピーカSP2から出力される2チャンネルの音声をコンテンツの音声として聴いているとする。
[0023]
 このような場合に、各チャンネルの音声を出力する2つのスピーカSP1とスピーカSP2の位置情報を用いて、仮想音源VSP1の位置に音像を定位させることを考える。
[0024]
 例えば、ユーザU11の頭部の位置を原点Oとし、図中、縦方向および横方向をx軸方向およびy軸方向とする2次元座標系における仮想音源VSP1の位置を、原点Oを始点とするベクトルPにより表すこととする。
[0025]
 ベクトルPは2次元のベクトルであるため、原点Oを始点とし、それぞれスピーカSP1およびスピーカSP2の位置の方向を向くベクトルL 1およびベクトルL 2の線形和によってベクトルPを表すことができる。すなわち、ベクトルPは、ベクトルL 1およびベクトルL 2を用いて次式(1)により表すことができる。
[0026]
[数1]


[0027]
 式(1)においてベクトルL 1およびベクトルL 2に乗算されている係数g 1および係数g 2を算出し、これらの係数g 1および係数g 2を、スピーカSP1およびスピーカSP2のそれぞれから出力する音声のゲインとすれば、仮想音源VSP1の位置に音像を定位させることができる。すなわち、ベクトルPにより示される位置に音像を定位させることができる。
[0028]
 このようにして、2つのスピーカSP1とスピーカSP2の位置情報を用いて係数g 1および係数g 2を求め、音像の定位位置を制御する手法は、2次元VBAPと呼ばれている。
[0029]
 図1の例では、スピーカSP1とスピーカSP2を結ぶ円弧AR11上の任意の位置に音像を定位させることができる。ここで、円弧AR11は、原点Oを中心とし、スピーカSP1およびスピーカSP2の各位置を通る円の一部分である。
[0030]
 なお、ベクトルPは2次元ベクトルであるので、ベクトルL 1とベクトルL 2のなす角度が0度より大きく、180度未満である場合、ゲインとされる係数g 1および係数g 2は一意に求まる。これらの係数g 1および係数g 2の算出方法については、上述した非特許文献1に詳細に記載されている。
[0031]
 これに対して、3チャンネルの音声を再生しようとする場合には、例えば図2に示すように、音声を出力するスピーカの数は3つになる。
[0032]
 図2の例では、3つのスピーカSP1、スピーカSP2、およびスピーカSP3から各チャンネルの音声が出力される。
[0033]
 このような場合においても、スピーカSP1乃至スピーカSP3から出力される各チャンネルの音声のゲイン、つまりゲインとして求める係数が3つになるだけで、考え方は上述した2次元VBAPと同様である。
[0034]
 すなわち、仮想音源VSP2の位置に音像を定位させようとする場合に、ユーザU11の頭部の位置を原点Oとする3次元座標系において、仮想音源VSP2の位置を、原点Oを始点とする3次元のベクトルPにより表すこととする。
[0035]
 また、原点Oを始点とし、各スピーカSP1乃至スピーカSP3の位置の方向を向く3次元のベクトルをベクトルL 1乃至ベクトルL 3とすると、ベクトルPは次式(2)に示すように、ベクトルL 1乃至ベクトルL 3の線形和によって表すことができる。
[0036]
[数2]


[0037]
 式(2)においてベクトルL 1乃至ベクトルL 3に乗算されている係数g 1乃至係数g 3を算出し、これらの係数g 1乃至係数g 3を、スピーカSP1乃至スピーカSP3のそれぞれから出力する音声のゲインとすれば、仮想音源VSP2の位置に音像を定位させることができる。
[0038]
 このようにして、3つのスピーカSP1乃至スピーカSP3の位置情報を用いて係数g 1乃至係数g 3を求め、音像の定位位置を制御する手法は、3次元VBAPと呼ばれている。
[0039]
 図2の例では、スピーカSP1、スピーカSP2、およびスピーカSP3の位置を含む球面上の三角形の領域TR11内の任意の位置に音像を定位させることができる。ここで、領域TR11は、原点Oを中心とし、スピーカSP1乃至スピーカSP3の各位置を含む球の表面上の領域であって、スピーカSP1乃至スピーカSP3により囲まれる球面上の三角形の領域である。
[0040]
 このような3次元VBAPを用いれば、空間上の任意の位置に音像を定位させることができるようになる。
[0041]
 例えば図3に示すように、音声を出力させるスピーカの数を増やして、図2に示した三角形の領域TR11に相当する領域を空間上に複数設ければ、それらの領域上の任意の位置に音像を定位させることができる。
[0042]
 図3に示す例では、5つのスピーカSP1乃至スピーカSP5が配置されており、それらのスピーカSP1乃至スピーカSP5から各チャンネルの音声が出力される。ここで、スピーカSP1乃至スピーカSP5は、ユーザU11の頭部の位置にある原点Oを中心とする球面上に配置されている。
[0043]
 この場合、原点Oを始点とし、各スピーカSP1乃至スピーカSP5の位置の方向を向く3次元のベクトルをベクトルL 1乃至ベクトルL 5として、上述した式(2)を解く計算と同様の計算を行い、各スピーカから出力される音声のゲインを求めればよい。
[0044]
 ここで、原点Oを中心とする球面上の領域のうち、スピーカSP1、スピーカSP4、およびスピーカSP5により囲まれる三角形の領域を領域TR21とする。同様に、原点Oを中心とする球面上の領域のうち、スピーカSP3、スピーカSP4、およびスピーカSP5により囲まれる三角形の領域を領域TR22とし、スピーカSP2、スピーカSP3、およびスピーカSP5により囲まれる三角形の領域を領域TR23とする。
[0045]
 これらの領域TR21乃至領域TR23は、図2に示した領域TR11に対応する領域である。いま、音像を定位させたい位置を示す3次元のベクトルをベクトルPとすると、図3の例では、ベクトルPは領域TR21上の位置を示している。
[0046]
 そこで、この例ではスピーカSP1、スピーカSP4、およびスピーカSP5の位置を示すベクトルL 1、ベクトルL 4、およびベクトルL 5が用いられて式(2)を解く計算と同様の計算が行なわれ、スピーカSP1、スピーカSP4、およびスピーカSP5の各スピーカから出力される音声のゲインが算出される。また、この場合、他のスピーカSP2およびスピーカSP3から出力される音声のゲインは0とされる。つまり、これらのスピーカSP2およびスピーカSP3からは、音声は出力されない。
[0047]
 このように空間上に5つのスピーカSP1乃至スピーカSP5を配置すれば、領域TR21乃至領域TR23からなる領域上の任意の位置に音像を定位させることが可能となる。
[0048]
 ところで、図4に示すように空間上に4つのスピーカSP1乃至スピーカSP4が配置されており、それらのスピーカSP1乃至スピーカSP4の中心位置にある仮想音源VSP3の位置に音像を定位させるとする。
[0049]
 図4の例では、スピーカSP1乃至スピーカSP4は、図示せぬ原点Oを中心とする球の表面に配置されており、その表面上の領域であって、スピーカSP1乃至スピーカSP3により囲まれる三角形の領域が領域TR31となっている。また、原点Oを中心とする球の表面上の領域であって、スピーカSP2乃至スピーカSP4により囲まれる三角形の領域が領域TR32となっている。
[0050]
 そして、仮想音源VSP3は、領域TR31の右下側の辺上に位置している。また、仮想音源VSP3は、領域TR32の左上側の辺上にも位置している。
[0051]
 したがって、この場合、スピーカSP1乃至スピーカSP3について3次元VBAPを行なうか、またはスピーカSP2乃至スピーカSP4について3次元VBAPを行なえばよいことになる。何れの場合にしても3次元VBAPの計算結果は同じとなり、2つのスピーカSP2およびスピーカSP3のみから音声が出力され、残りのスピーカSP1およびスピーカSP4からは音声が出力されないようなゲインが求まる。
[0052]
 3次元VBAPでは、音像を定位させようとする位置が、3つのスピーカを結ぶ球面上の三角形の領域の境界線上、つまり球面上の三角形の辺上にある場合、その辺の両端に位置する2つのスピーカからのみ音声が出力されることになる。
[0053]
 このように2つのスピーカSP2およびスピーカSP3のみから音声が出力される場合に、例えば図5に示すように、最適な視聴位置であるスイートスポットにいるユーザU11が、矢印A11に示すように図中、左側に移動したとする。
[0054]
 すると、ユーザU11の頭部はスピーカSP3に近付くため、このスピーカSP3から出力されている音声がより大きく聴こえるようになるので、ユーザU11には、矢印A12に示すように仮想音源VSP3、つまり音像が図中、左下に移動したように知覚される。
[0055]
 3次元VBAPでは、図5に示すように2つのスピーカのみから音声が出力される場合には、ユーザU11がスイートスポットから少し移動するだけで、ユーザU11の移動方向に対して垂直な方向に音像が移動してしまう。そのような場合、ユーザU11は自身の移動方向とは異なる方向に音像が移動したように知覚されるので違和感が生じてしまう。つまり、ユーザU11にとって音像の定位が不安定であると知覚されてしまい、スイートスポットの範囲が狭くなってしまう。
[0056]
 そこで、本技術では、上述したVBAPとは異なり、3つより多い数のスピーカ、つまり4以上のスピーカから音声を出力させることにより、音像の定位をより安定させ、これによりスイートスポットの範囲がより広くなるようにする。
[0057]
 なお、音声を出力させるスピーカの数は4以上であればいくつでもよいが、以下では4つのスピーカから音声を出力させる場合を例として説明を続ける。
[0058]
 例えば図4に示した例と同様に、4つのスピーカSP1乃至スピーカSP4の中心位置にある仮想音源VSP3の位置に音像を定位させるとする。
[0059]
 そのような場合、本技術では2つまたは3つのスピーカが選択されて1つの組み合わせとされ、互いに異なる複数の組み合わせについてVBAPが行なわれて、4つのスピーカSP1乃至スピーカSP4から出力される音声のゲインが算出される。
[0060]
 したがって、本技術では、例えば図6に示すように4つの全てのスピーカSP1乃至スピーカSP4から音声が出力されることになる。
[0061]
 そのような場合には図6中、矢印A21に示すようにユーザU11がスイートスポットから図中、左方向に移動しても仮想音源VSP3の位置、つまり音像の定位位置は矢印A22に示すように図中、左方向に移動するだけである。すなわち、図5に示した例のように、音像が下方向、つまりユーザU11の移動方向と垂直な方向に移動することはなく、ユーザU11の移動方向と同じ方向にのみ移動する。
[0062]
 これは、ユーザU11が左方向に移動すると、スピーカSP3に近付くことになるが、そのスピーカSP3の上側にはスピーカSP1も位置しているからである。この場合、ユーザU11の耳には、ユーザU11から見て左上側からも左下側からも音声が到達するので、音像が図中、下方向に移動したと知覚されにくくなる。
[0063]
 そのため、従来のVBAP手法と比較して、より音像の定位を安定させることができ、その結果、スイートスポットの範囲を拡大させることができる。
[0064]
 次に、本技術による音像定位の制御について、より具体的に説明する。
[0065]
 本技術では、音像を定位させようとする位置を示すベクトルを、3次元座標系の図示せぬ原点Oを始点とするベクトルPとして、次式(3)によりベクトルPを表現する。
[0066]
[数3]


[0067]
 なお、式(3)において、ベクトルL 1乃至ベクトルL 4は、音像の定位位置近傍にあり、その音像定位位置を囲むように配置されたスピーカSP1乃至スピーカSP4の位置の方向を向く3次元のベクトルを示している。また、g 1乃至g 4は、これから求めようとする、スピーカSP1乃至スピーカSP4から出力させる各チャンネルの音声のゲインとなる係数を示している。
[0068]
 式(3)においては、ベクトルPが4つのベクトルL 1乃至ベクトルL 4の線形和によって表されている。ここで、ベクトルPは3次元ベクトルであるため、4つの係数g 1乃至係数g 4は一意に求まらない。
[0069]
 そこで、本技術では、以下の方法により、ゲインとなる各係数g 1乃至係数g 4が算出される。
[0070]
 いま、図4に示した4つのスピーカSP1乃至スピーカSP4に囲まれる球面上の四角形の中心位置、つまり仮想音源VSP3の位置に音像を定位させるとする。
[0071]
 ここでは、まず、スピーカSP1乃至スピーカSP4を頂点とする球面上の四角形の任意の1つの辺を選択し、その辺上に仮想的なスピーカ(以下、仮想スピーカと称する)があるものと仮定する。
[0072]
 例えば、図7に示すように、スピーカSP1乃至スピーカSP4を頂点とする球面上の四角形のうち、図中、左下と右下に位置するスピーカSP3とスピーカSP4を結ぶ辺が選択されたとする。そして、例えば仮想音源VSP3の位置から、スピーカSP3とスピーカSP4を結ぶ辺におろした垂線の交点位置に、仮想スピーカVSP’があるものとされる。
[0073]
 続いて、この仮想スピーカVSP’と、図中、左上および右上にあるスピーカSP1およびスピーカSP2との合計3つのスピーカについて、3次元VBAPが行なわれる。すなわち、上述した式(2)と同様の式を解くことにより、スピーカSP1、スピーカSP2、および仮想スピーカVSP’のそれぞれから出力される音声のゲインとなる係数g 1、係数g 2、および係数g’が求められる。
[0074]
 図7では、原点Oを始点とする3つのベクトル、すなわちスピーカSP1の方向を向くベクトルL 1、スピーカSP2の方向を向くベクトルL 2、および仮想スピーカVSP’の方向を向くベクトルL’の線形和によりベクトルPが表される。すなわち、P=g 11+g 22+g’L’とされる。
[0075]
 ここで、仮想音源VSP3の位置に音像を定位させるためには、仮想スピーカVSP’からゲインg’で音声が出力されねばならないが、仮想スピーカVSP’は実在しない。そこで、本技術では、図8に示すように仮想スピーカVSP’が位置する四角形の辺の両端に位置する2つのスピーカSP3およびスピーカSP4を用いて、仮想スピーカVSP’の位置に音像を定位させることにより、仮想スピーカVSP’が実現される。
[0076]
 具体的には、仮想スピーカVSP’が位置する球面上の辺の、その両端に位置する2つのスピーカSP3およびスピーカSP4について、2次元VBAPが行なわれる。すなわち、上述した式(1)と同様の式を解くことにより、スピーカSP3およびスピーカSP4のそれぞれから出力される音声のゲインとなる係数g 3’および係数g 4’が算出される。
[0077]
 図8の例では、仮想スピーカVSP’の方向を向くベクトルL’が、スピーカSP3の方向を向くベクトルL 3、およびスピーカSP4の方向を向くベクトルL 4の線形和により表される。つまり、L’=g 3’L 3+g 4’L 4とされる。
[0078]
 そして、求められた係数g 3’に係数g’を乗算して得られる値g’g 3’が、スピーカSP3から出力させる音声のゲインとされ、係数g 4’に係数g’を乗算して得られる値g’g 4’が、スピーカSP4から出力させる音声のゲインとされる。これにより、スピーカSP3とスピーカSP4によって、ゲインg’で音声を出力する仮想スピーカVSP’が実現されることになる。
[0079]
 なお、ここで、ゲイン値とされるg’g 3’の値が、上述した式(3)における係数g 3の値となり、ゲイン値とされるg’g 4’の値が、上述した式(3)における係数g 4の値となる。
[0080]
 以上のようにして得られた0ではない値g 1、g 2、g’g 3’、およびg’g 4’を、スピーカSP1乃至スピーカSP4から出力される各チャンネルの音声のゲインとすれば、4つのスピーカから音声を出力させて、目標とする位置に音像を定位させることができる。
[0081]
 このように4つのスピーカから音声を出力させて音像を定位させれば、従来のVBAP手法で音像を定位させるよりも、音像の定位をより安定させることができ、これによりスイートスポットの範囲を拡大させることができる。
[0082]
〈音声処理装置の構成例〉
 次に、以上において説明した本技術を適用した具体的な実施の形態について説明する。図9は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
[0083]
 音声処理装置11は、外部から供給されたモノラルの音声信号に対してチャンネルごとのゲイン調整を行なうことで、Nチャンネル(但し、N≧5)の音声信号を生成し、N個の各チャンネルに対応するスピーカ12-1乃至スピーカ12-Nに音声信号を供給する。
[0084]
 スピーカ12-1乃至スピーカ12-Nは、音声処理装置11から供給された音声信号に基づいて、各チャンネルの音声を出力する。すなわち、スピーカ12-1乃至スピーカ12-Nは、各チャンネルの音声を出力する音源となる音声出力部である。なお、以下、スピーカ12-1乃至スピーカ12-Nを特に区別する必要のない場合、単にスピーカ12とも称することとする。なお、図9では、スピーカ12が音声処理装置11に含まれていない構成とされているが、スピーカ12が音声処理装置11に含まれるようにしてもよい。また、音声処理装置11を構成する各部とスピーカ12を、例えばいくつかの装置に分けて設ける等して、音声処理装置11の各部とスピーカ12からなる音声処理システムとするようにしてもよい。
[0085]
 スピーカ12は、コンテンツ等を視聴するときにユーザが位置すると想定される位置(以下、単にユーザの位置とも称する)を囲むように配置されている。例えば、各スピーカ12は、ユーザの位置を中心とする球の表面上の位置に配置されている。換言すれば、各スピーカ12は、ユーザから等距離の位置に配置される。また、音声処理装置11からスピーカ12への音声信号の供給は有線により行なわれてもよいし、無線により行なわれてもよい。
[0086]
 音声処理装置11は、スピーカ選択部21、ゲイン算出部22、ゲイン決定部23、ゲイン出力部24、およびゲイン調整部25から構成される。
[0087]
 音声処理装置11には、例えば移動物体などのオブジェクトに取り付けられたマイクロホンにより収音された音声の音声信号と、そのオブジェクトの位置情報とが供給される。
[0088]
 スピーカ選択部21は、外部から供給されたオブジェクトの位置情報に基づいて、スピーカ12が配置されている空間上において、オブジェクトから発せられる音声の音像を定位させるべき位置(以下、目標音像位置とも称する)を特定し、その特定結果をゲイン算出部22に供給する。
[0089]
 また、スピーカ選択部21は、目標音像位置に基づいて、N個のスピーカ12のなかから、音声を出力させるべき4つのスピーカ12を処理対象のスピーカ12として選択し、その選択結果を示す選択情報をゲイン算出部22、ゲイン決定部23、およびゲイン出力部24に供給する。
[0090]
 ゲイン算出部22は、スピーカ選択部21から供給された選択情報と、目標音像位置とに基づいて、処理対象のスピーカ12のゲインを算出し、ゲイン出力部24に供給する。ゲイン決定部23は、スピーカ選択部21から供給された選択情報に基づいて、処理対象とされていないスピーカ12のゲインを決定し、ゲイン出力部24に供給する。例えば、処理対象ではないスピーカ12のゲインは「0」とされる。つまり、処理対象ではないスピーカ12からはオブジェクトの音声が出力されないように制御される。
[0091]
 ゲイン出力部24は、ゲイン算出部22およびゲイン決定部23から供給されたN個のゲインをゲイン調整部25に供給する。このとき、ゲイン出力部24は、スピーカ選択部21から供給された選択情報に基づいて、ゲイン算出部22およびゲイン決定部23から供給されたN個の各ゲインのゲイン調整部25内での供給先を定める。
[0092]
 ゲイン調整部25は、ゲイン出力部24から供給された各ゲインに基づいて、外部から供給されたオブジェクトの音声信号に対するゲイン調整を行なって、その結果得られたN個の各チャンネルの音声信号をスピーカ12に供給して音声を出力させる。
[0093]
 ゲイン調整部25は、増幅部31-1乃至増幅部31-Nを備えている。増幅部31-1乃至増幅部31-Nは、ゲイン出力部24から供給されたゲインに基づいて、外部から供給された音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ12-1乃至スピーカ12-Nに供給する。
[0094]
 なお、以下、増幅部31-1乃至増幅部31-Nを個々に区別する必要がない場合、単に増幅部31とも称する。
[0095]
〈ゲイン算出部の構成例〉
 また、図9に示したゲイン算出部22は、例えば図10に示すように構成される。
[0096]
 図10に示すゲイン算出部22は、仮想スピーカ位置決定部61、3次元ゲイン算出部62、2次元ゲイン算出部63、乗算部64、および乗算部65から構成される。
[0097]
 仮想スピーカ位置決定部61は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。仮想スピーカ位置決定部61は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を3次元ゲイン算出部62に供給するとともに、選択情報および仮想スピーカの位置を示す情報を2次元ゲイン算出部63に供給する。
[0098]
 3次元ゲイン算出部62は、仮想スピーカ位置決定部61から供給された各情報に基づいて、処理対象のスピーカ12のうちの2つのスピーカ12と、仮想スピーカとについて、3次元VBAPを行なう。そして、3次元ゲイン算出部62は、3次元VBAPにより得られた2つのスピーカ12のゲインをゲイン出力部24に供給するとともに、仮想スピーカのゲインを乗算部64および乗算部65に供給する。
[0099]
 2次元ゲイン算出部63は、仮想スピーカ位置決定部61から供給された各情報に基づいて、処理対象のスピーカ12のうちの2つのスピーカ12について2次元VBAPを行い、その結果得られたスピーカ12のゲインを乗算部64および乗算部65に供給する。
[0100]
 乗算部64は、2次元ゲイン算出部63から供給されたゲインに、3次元ゲイン算出部62から供給されたゲインを乗算して最終的なスピーカ12のゲインとし、ゲイン出力部24に供給する。乗算部65は、2次元ゲイン算出部63から供給されたゲインに、3次元ゲイン算出部62から供給されたゲインを乗算して最終的なスピーカ12のゲインとし、ゲイン出力部24に供給する。
[0101]
〈音像定位制御処理の説明〉
 ところで、音声処理装置11にオブジェクトの位置情報と音声信号が供給され、オブジェクトの音声の出力が指示されると、音声処理装置11は音像定位制御処理を開始して、オブジェクトの音声を出力させ、その音像を適切な位置に定位させる。
[0102]
 以下、図11のフローチャートを参照して、音声処理装置11による音像定位制御処理について説明する。
[0103]
 ステップS11において、スピーカ選択部21は、外部から供給されたオブジェクトの位置情報に基づいて処理対象とするスピーカ12を選択する。
[0104]
 具体的には、例えばスピーカ選択部21は、オブジェクトの位置情報に基づいて目標音像位置を特定し、N個のスピーカ12のうち、目標音像位置近傍にあり、かつ目標音像位置を囲むように配置されている4つのスピーカ12を処理対象のスピーカ12とする。
[0105]
 例えば、図7に示した仮想音源VSP3の位置が目標音像位置とされた場合、仮想音源VSP3を囲む4つのスピーカSP1乃至スピーカSP4に対応するスピーカ12が処理対象のスピーカ12として選択される。
[0106]
 スピーカ選択部21は、目標音像位置を示す情報を仮想スピーカ位置決定部61に供給するとともに、処理対象の4つのスピーカ12を示す選択情報を仮想スピーカ位置決定部61、ゲイン決定部23、およびゲイン出力部24に供給する。
[0107]
 ステップS12において、仮想スピーカ位置決定部61は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。例えば、図7に示した例と同様に、処理対象のスピーカ12のうちのユーザからみて左下および右下に位置するスピーカ12を結ぶ球面上の辺と、目標音像位置からその辺におろした垂線との交点の位置が、仮想スピーカの位置とされる。
[0108]
 仮想スピーカの位置が決定されると、仮想スピーカ位置決定部61は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を3次元ゲイン算出部62に供給するとともに、選択情報および仮想スピーカの位置を示す情報を2次元ゲイン算出部63に供給する。
[0109]
 なお、仮想スピーカの位置は、処理対象とされた4つのスピーカ12を各頂点とする、球面上の四角形の辺上の位置であれば、どの位置とされてもよい。また、処理対象とされるスピーカ12が5以上である場合でも、それらのスピーカ12を各頂点とする球面上の多角形の辺上の任意の位置を仮想スピーカの位置とすればよい。
[0110]
 ステップS13において3次元ゲイン算出部62は、仮想スピーカ位置決定部61から供給された目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報に基づいて、仮想スピーカと、処理対象の2つのスピーカ12とについてゲインを算出する。
[0111]
 具体的には3次元ゲイン算出部62は、目標音像位置を示す3次元ベクトルをベクトルPとするとともに、仮想スピーカを向く3次元ベクトルをベクトルL’とする。また、3次元ゲイン算出部62は、処理対象となっているスピーカ12のうち、図7に示したスピーカSP1と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL 1とし、スピーカSP2と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL 2とする。
[0112]
 そして、3次元ゲイン算出部62は、ベクトルPをベクトルL’、ベクトルL 1、およびベクトルL 2の線形和で表す式を求め、その式を解くことにより、ベクトルL’、ベクトルL 1、およびベクトルL 2の係数g’、係数g 1、および係数g 2をゲインとして算出する。すなわち、上述した式(2)を解く演算と同様の演算が行なわれる。
[0113]
 3次元ゲイン算出部62は、計算の結果得られたスピーカSP1およびスピーカSP2と同じ位置関係にあるスピーカ12の係数g 1および係数g 2を、それらのスピーカ12から出力する音声のゲインとしてゲイン出力部24に供給する。
[0114]
 また、3次元ゲイン算出部62は、計算の結果得られた仮想スピーカの係数g’を、仮想スピーカから出力する音声のゲインとして乗算部64および乗算部65に供給する。
[0115]
 ステップS14において、2次元ゲイン算出部63は、仮想スピーカ位置決定部61から供給された選択情報、および仮想スピーカの位置を示す情報に基づいて、処理対象の2つのスピーカ12についてゲインを算出する。
[0116]
 具体的には2次元ゲイン算出部63は、仮想スピーカの位置を示す3次元ベクトルをベクトルL’とする。また、2次元ゲイン算出部63は、処理対象となっているスピーカ12のうち、図8に示したスピーカSP3と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL 3とし、スピーカSP4と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL 4とする。
[0117]
 そして、2次元ゲイン算出部63はベクトルL’を、ベクトルL 3、およびベクトルL 4の線形和で表す式を求め、その式を解くことにより、ベクトルL 3およびベクトルL 4の係数g 3’および係数g 4’をゲインとして算出する。すなわち、上述した式(1)を解く演算と同様の演算が行なわれる。
[0118]
 2次元ゲイン算出部63は、計算の結果得られたスピーカSP3およびスピーカSP4と同じ位置関係にあるスピーカ12の係数g 3’および係数g 4’を、それらのスピーカ12から出力する音声のゲインとして乗算部64および乗算部65に供給する。
[0119]
 ステップS15において、乗算部64および乗算部65は、2次元ゲイン算出部63から供給されたゲインg 3’およびゲインg 4’に対して、3次元ゲイン算出部62から供給された仮想スピーカのゲインg’を乗算し、ゲイン出力部24に供給する。
[0120]
 したがって、処理対象となっている4つのスピーカ12のうち、図8のスピーカSP3と同じ位置関係にあるスピーカ12の最終的なゲインとしてg 3=g’g 3’がゲイン出力部24に供給されることになる。同様に、処理対象となっている4つのスピーカ12のうち、図8のスピーカSP4と同じ位置関係にあるスピーカ12の最終的なゲインとしてg 4=g’g 4’がゲイン出力部24に供給される。
[0121]
 ステップS16において、ゲイン決定部23は、スピーカ選択部21から供給された選択情報に基づいて、処理対象とされていないスピーカ12のゲインを決定し、ゲイン出力部24に供給する。例えば、処理対象ではない全てのスピーカ12のゲインは「0」とされる。
[0122]
 ゲイン出力部24にゲイン算出部22からのゲインg 1、ゲインg 2、ゲインg’g 3’、およびゲインg’g 4’と、ゲイン決定部23からのゲイン「0」とが供給されると、ゲイン出力部24は、スピーカ選択部21からの選択情報に基づいて、それらのゲインをゲイン調整部25の増幅部31に供給する。
[0123]
 具体的には、ゲイン出力部24は、処理対象の各スピーカ12、つまり図7のスピーカSP1乃至スピーカSP4のそれぞれに対応するスピーカ12に対して音声信号を供給する増幅部31に、ゲインg 1、ゲインg 2、ゲインg’g 3’、およびゲインg’g 4’を供給する。例えば、スピーカSP1に対応するスピーカ12がスピーカ12-1である場合、ゲイン出力部24は、ゲインg 1を増幅部31-1に供給する。
[0124]
 また、ゲイン出力部24は、処理対象ではないスピーカ12に音声信号を供給する増幅部31に対して、ゲイン決定部23から供給されたゲイン「0」を供給する。
[0125]
 ステップS17において、ゲイン調整部25の増幅部31は、ゲイン出力部24から供給されたゲインに基づいて、外部から供給されたオブジェクトの音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ12に供給し、音声を出力させる。
[0126]
 各スピーカ12は、増幅部31から供給された音声信号に基づいて音声を出力する。より詳細には、処理対象とされた4つのスピーカ12のみから音声が出力される。これにより、目標とする位置に音像を定位させることができる。スピーカ12から音声が出力されると、音像定位制御処理は終了する。
[0127]
 以上のようにして、音声処理装置11は、オブジェクトの位置情報から処理対象とする4つのスピーカ12を選択し、それらのスピーカ12と仮想スピーカのうちの2つまたは3つのスピーカの組み合わせについてVBAPを行なう。そして、音声処理装置11は、複数の異なる組み合わせについてVBAPを行なうことで得られた、処理対象の各スピーカ12のゲインに基づいて音声信号のゲイン調整を行なう。
[0128]
 これにより、目標とする音像位置の周囲に位置する4つのスピーカ12から音声が出力されるようになり、音像の定位をより安定させることができるようになる。その結果、スイートスポットの範囲をより拡大させることができる。
[0129]
〈第2の実施の形態〉
〈ゲインの算出について〉
 なお、以上においては、仮想スピーカを含む5つのスピーカのうちの2または3のスピーカを選択して1つのスピーカの組み合わせとし、複数の組み合わせについてVBAPを行なうことで、処理対象のスピーカ12のゲインを算出する例について説明した。しかし、本技術では、仮想スピーカを定めずに、処理対象の4つのスピーカ12から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なうことでもゲインを算出することが可能である。
[0130]
 そのような場合、例えば図12に示すように、目標音像位置によってVBAPを行なうべき回数が変化する。なお、図12において図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
[0131]
 例えば、仮想音源の位置、つまり目標音像位置が矢印Q11に示す位置にある場合、矢印Q11に示す位置は、球面上のスピーカSP1、スピーカSP2、およびスピーカSP4により囲まれる三角形の領域内にある。そのため、スピーカSP1、スピーカSP2、およびスピーカSP4からなるスピーカの組(以下、第1組とも称する)について、3次元VBAPを行なえば、スピーカSP1、スピーカSP2、およびスピーカSP4の3つのスピーカから出力される音声のゲインが求まる。
[0132]
 一方で、矢印Q11に示す位置は、球面上のスピーカSP2、スピーカSP3、およびスピーカSP4により囲まれる三角形の領域内の位置でもある。そのため、スピーカSP2、スピーカSP3、およびスピーカSP4からなるスピーカの組(以下、第2組とも称する)について、3次元VBAPを行なえば、スピーカSP2、スピーカSP3、およびスピーカSP4の3つのスピーカから出力される音声のゲインが求まる。
[0133]
 ここで、第1組と第2組において、それぞれ用いられなかったスピーカのゲインを「0」とすれば、この例では、第1組と第2組とで、4つのスピーカSP1乃至スピーカSP4の各ゲインとして、合計2通りのゲインが得られる。
[0134]
 そこで、各スピーカについて、第1組と第2組で得られたスピーカのゲインの和がゲイン和として求められる。例えば、第1組について得られたスピーカSP1のゲインがg 1(1)であり、第2組について得られたスピーカSP1のゲインがg 1(2)であれば、スピーカSP1のゲイン和g s1は、ゲイン和g s1=g 1(1)+g 1(2)となる。
[0135]
 ここで、第2組の組み合わせにはスピーカSP1が含まれていないのでg 1(2)は0となるが、第1組のスピーカの組み合わせにはスピーカSP1が含まれているのでg 1(1)は0ではない値となり、結局、スピーカSP1のゲイン和g s1は0にはならない。このことは、他のスピーカSP2乃至スピーカSP4のゲイン和についても同様である。
[0136]
 このようにして各スピーカのゲイン和が求まると、それらのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られた値を、それらのスピーカの最終的なゲイン、より詳細にはスピーカから出力される音声のゲインとすればよい。
[0137]
 このようにして各スピーカSP1乃至スピーカSP4のゲインを求めれば、必ず0ではないゲインが得られるので、4つのスピーカSP1乃至スピーカSP4のそれぞれから音声を出力させて、所望の位置に音像を定位させることができる。
[0138]
 なお、以下、第m組(但し、1≦m≦4)について得られた、スピーカSPk(但し、1≦k≦4)のゲインをg k(m)と表すこととする。また、スピーカSPk(但し、1≦k≦4)のゲイン和をg skと表すこととする。
[0139]
 さらに、矢印Q12に示す位置、つまり球面上において、スピーカSP2およびスピーカSP3を結ぶ線と、スピーカSP1およびスピーカSP4を結ぶ線との交点位置に目標音像位置がある場合、3つのスピーカの組み合わせは4通りとなる。
[0140]
 すなわち、スピーカSP1、スピーカSP2、およびスピーカSP3の組み合わせ(以下、第1組と称する)と、スピーカSP1、スピーカSP2、およびスピーカSP4の組み合わせ(以下、第2組と称する)とが考えられる。また、その他に、スピーカSP1、スピーカSP3、およびスピーカSP4の組み合わせ(以下、第3組と称する)と、スピーカSP2、スピーカSP3、およびスピーカSP4の組み合わせ(以下、第4組と称する)とが考えられる。
[0141]
 この場合には、第1組から第4組までの各組み合わせについて、それぞれ3次元VBAPを行なって、各スピーカのゲインを求めればよい。そして、同じスピーカについて求まった4つのゲインの和をゲイン和とし、スピーカごとに求めた4つのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られる値を、それらのスピーカの最終的なゲインとすればよい。
[0142]
 なお、目標音像位置が矢印Q12に示す位置にある場合、スピーカSP1乃至スピーカSP4からなる球面上の四角形が長方形等である場合には、例えば第1組と第4組とで、3次元VBAPとして同じ計算結果が得られる。そのため、このような場合には、第1組と第2組など、適切な2通りの組み合わせについて3次元VBAPを行なえば、各スピーカのゲインを得ることができる。しかし、スピーカSP1乃至スピーカSP4からなる球面上の四角形が長方形等ではない、非対称な四角形である場合には、4つの各組み合わせについて3次元VBAPを行なう必要がある。
[0143]
〈ゲイン算出部の構成例〉
 以上において説明したように、仮想スピーカを定めずに、処理対象の4つのスピーカ12から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なってゲインを算出する場合、図9に示したゲイン算出部22は、例えば図13に示すように構成される。
[0144]
 図13に示すゲイン算出部22は、選択部91、3次元ゲイン算出部92-1、3次元ゲイン算出部92-2、3次元ゲイン算出部92-3、3次元ゲイン算出部92-4、および加算部93から構成される。
[0145]
 選択部91は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて、処理対象とされた4つのスピーカ12のなかから、目標音像位置を囲む3つのスピーカ12の組み合わせを決定する。選択部91は、スピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4に供給する。
[0146]
 3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4は、選択部91から供給されたスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて3次元VBAPを行い、その結果得られた各スピーカ12のゲインを加算部93に供給する。なお、以下、3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4を特に区別する必要のない場合、単に3次元ゲイン算出部92とも称する。
[0147]
 加算部93は、3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4から供給された処理対象の各スピーカ12のゲインに基づいてゲイン和を求め、さらにそれらのゲイン和を正規化することで処理対象の各スピーカ12の最終的なゲインを算出し、ゲイン出力部24に供給する。
[0148]
〈音像定位制御処理の説明〉
 次に、図14のフローチャートを参照して、ゲイン算出部22が図13に示す構成とされる場合に行なわれる音像定位制御処理について説明する。
[0149]
 なお、ステップS41の処理は、図11のステップS11の処理と同様であるので、その説明は省略する。
[0150]
 ステップS42において、選択部91は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいてスピーカ12の組み合わせを決定し、スピーカ12の組み合わせを示す情報と目標音像位置を示す情報を3次元ゲイン算出部92に供給する。
[0151]
 例えば目標音像位置が、図12に示した矢印Q11に示す位置にある場合、スピーカSP1、スピーカSP2、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせ(第1組)が決定される。また、スピーカSP2、スピーカSP3、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせ(第2組)が決定される。
[0152]
 この場合、例えば選択部91は、第1組のスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-1に供給し、第2組のスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-2に供給する。また、この場合には、3次元ゲイン算出部92-3と3次元ゲイン算出部92-4には、スピーカ12の組み合わせを示す情報等は供給されず、3次元ゲイン算出部92-3と3次元ゲイン算出部92-4では、3次元VBAPの計算も行なわれない。
[0153]
 ステップS43において、3次元ゲイン算出部92は、選択部91から供給されたスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて、スピーカ12の組み合わせについて処理対象の各スピーカ12のゲインを算出し、加算部93に供給する。
[0154]
 具体的には、3次元ゲイン算出部92は、スピーカ12の組み合わせを示す情報により示される3つのスピーカ12について、上述した図11のステップS13と同様の処理を行なって、各スピーカ12のゲインを求める。すなわち、上述した式(2)を解く演算と同様の演算が行なわれる。また、処理対象の4つのスピーカ12のうち、スピーカ12の組み合わせを示す情報により示される3つのスピーカ12ではない、残りの1つのスピーカ12のゲインは「0」とされる。
[0155]
 例えば、ステップS42において第1組と第2組との2通りの組み合わせが求められた場合、3次元ゲイン算出部92-1では第1組について3次元VBAPにより各スピーカ12のゲインが算出される。また、3次元ゲイン算出部92-2では第2組について3次元VBAPにより各スピーカ12のゲインが算出される。
[0156]
 具体的には、第1組として図12に示したスピーカSP1、スピーカSP2、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせが決定されたとする。この場合、3次元ゲイン算出部92-1では、スピーカSP1に対応するスピーカ12のゲインg 1(1)、スピーカSP2に対応するスピーカ12のゲインg 2(1)、およびスピーカSP4に対応するスピーカ12のゲインg 4(1)が算出される。また、スピーカSP3に対応するスピーカ12のゲインg 3(1)は「0」とされる。
[0157]
 ステップS44において、加算部93は、3次元ゲイン算出部92から供給された各スピーカ12のゲインに基づいて、処理対象のスピーカ12の最終的なゲインを算出し、ゲイン出力部24に供給する。
[0158]
 例えば、加算部93は、3次元ゲイン算出部92から供給されたスピーカSP1に対応するスピーカ12のゲインg 1(1)、ゲインg 1(2)、ゲインg 1(3)、およびゲインg 1(4)の和を求めることで、そのスピーカ12のゲイン和g s1を算出する。同様にして、加算部93は、スピーカSP2に対応するスピーカ12のゲイン和g s2、スピーカSP3に対応するスピーカ12のゲイン和g s3、およびスピーカSP4に対応するスピーカ12のゲイン和g s4も算出する。
[0159]
 そして、加算部93は、スピーカSP1に対応するスピーカ12のゲイン和g s1を、ゲイン和g s1乃至ゲイン和g s4の二乗和で正規化することにより、スピーカSP1に対応するスピーカ12の最終的なゲインg 1(係数g 1)を求める。また加算部93は、同様の計算によりスピーカSP2乃至スピーカSP4に対応するスピーカ12の最終的なゲインg 2乃至ゲインg 4も求める。
[0160]
 こうのようにして処理対象のスピーカ12のゲインが求められると、その後、ステップS45およびステップS46の処理が行なわれて、音像定位制御処理は終了するが、これらの処理は図11のステップS16およびステップS17の処理と同様であるので、その説明は省略する。
[0161]
 以上のようにして、音声処理装置11は、オブジェクトの位置情報から処理対象とする4つのスピーカ12を選択し、それらのスピーカ12のうちの3つのスピーカ12からなるスピーカ12の組み合わせについてVBAPを行なう。そして、音声処理装置11は、複数の異なる組み合わせについてVBAPを行なうことで得られた同じスピーカ12のゲインの和を求めることで、処理対象の各スピーカ12の最終的なゲインを求め、音声信号のゲイン調整を行なう。
[0162]
 これにより、目標とする音像位置の周囲に位置する4つのスピーカ12から音声が出力されるようになり、音像の定位をより安定させることができるようになる。その結果、スイートスポットの範囲をより拡大させることができる。
[0163]
 なお、この実施の形態では、目標音像位置を囲む4つのスピーカ12が処理対象のスピーカ12とされる例について説明したが、処理対象とされるスピーカ12の数は4以上であればよい。
[0164]
 例えば、5つのスピーカ12が処理対象のスピーカ12として選択される場合には、それらの5つのスピーカ12のうち、目標音像位置を囲む任意の3つのスピーカ12からなるスピーカ12の組が、1つの組み合わせとして選択される。
[0165]
 具体的には、図15に示すように5つのスピーカSP1乃至スピーカSP5に対応するスピーカ12が処理対象のスピーカ12として選択され、目標音像位置が矢印Q21に示す位置とされたとする。
[0166]
 この場合、第1組として、スピーカSP1、スピーカSP2、およびスピーカSP3からなる組み合わせが選択され、第2組として、スピーカSP1、スピーカSP2、およびスピーカSP4からなる組み合わせが選択される。また、第3組として、スピーカSP1、スピーカSP2、およびスピーカSP5からなる組み合わせが選択される。
[0167]
 そして、これらの第1組乃至第3組について、各スピーカのゲインが求められ、各スピーカのゲイン和から、最終的なゲインが算出される。つまり、第1組乃至第3組について、図14のステップS43の処理が行なわれ、その後、ステップS44乃至ステップS46の処理が行なわれる。
[0168]
 このように、5以上のスピーカ12を処理対象のスピーカ12として選択する場合においても、処理対象とする全てのスピーカ12から音声を出力させて音像を定位させることができる。
[0169]
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
[0170]
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
[0171]
 コンピュータにおいて、CPU801,ROM802,RAM803は、バス804により相互に接続されている。
[0172]
 バス804には、さらに、入出力インターフェース805が接続されている。入出力インターフェース805には、入力部806、出力部807、記録部808、通信部809、及びドライブ810が接続されている。
[0173]
 入力部806は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部807は、ディスプレイ、スピーカなどよりなる。記録部808は、ハードディスクや不揮発性のメモリなどよりなる。通信部809は、ネットワークインターフェースなどよりなる。ドライブ810は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア811を駆動する。
[0174]
 以上のように構成されるコンピュータでは、CPU801が、例えば、記録部808に記録されているプログラムを、入出力インターフェース805及びバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。
[0175]
 コンピュータ(CPU801)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア811に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
[0176]
 コンピュータでは、プログラムは、リムーバブルメディア811をドライブ810に装着することにより、入出力インターフェース805を介して、記録部808にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部809で受信し、記録部808にインストールすることができる。その他、プログラムは、ROM802や記録部808に、あらかじめインストールしておくことができる。
[0177]
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
[0178]
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
[0179]
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
[0180]
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
[0181]
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
[0182]
 さらに、本技術は、以下の構成とすることも可能である。
[0183]
[1]
 4以上の音声出力部と、
 目標とする音像定位位置近傍に位置する前記4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、
 前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部と
 を備える音声処理装置。
[2]
 少なくとも4以上の前記出力ゲインの値が0でない値とされる
 [1]に記載の音声処理装置。
[3]
 前記ゲイン算出部は、
  仮想的な音声出力部および2つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記仮想的な音声出力部および前記2つの前記音声出力部の前記出力ゲインを算出する第1のゲイン算出部と、
  前記2つの前記音声出力部とは異なる他の2つの前記音声出力部と、前記仮想的な音声出力部との位置関係に基づいて、前記仮想的な音声出力部の位置に音像を定位させるための前記他の2つの前記音声出力部のゲインを算出する第2のゲイン算出部と、
  前記他の2つの前記音声出力部のゲインと、前記仮想的な音声出力部の前記出力ゲインとに基づいて、前記他の2つの前記音声出力部の前記出力ゲインを算出する演算部と
 を備える
 [1]または[2]に記載の音声処理装置。
[4]
 前記演算部は、前記他の2つの前記音声出力部のゲインに前記仮想的な音声出力部の前記出力ゲインを乗算することにより、前記他の2つの前記音声出力部の前記出力ゲインを算出する
 [3]に記載の音声処理装置。
[5]
 前記仮想的な音声出力部の位置は、前記4以上の前記音声出力部を頂点とする多角形の辺上に位置するように定められる
 [3]または[4]に記載の音声処理装置。
[6]
 前記ゲイン算出部は、
  3つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記3つの前記音声出力部の前記出力ゲインを算出する仮ゲイン算出部と、
  互いに異なる前記組み合わせについて前記出力ゲインを算出する複数の前記仮ゲイン算出部により算出された前記出力ゲインに基づいて、前記音声出力部の最終的な前記出力ゲインを算出する演算部と
 を備える
 [1]または[2]に記載の音声処理装置。
[7]
 前記演算部は、同じ前記音声出力部について求められた前記出力ゲインの和を求めることで、前記音声出力部の最終的な前記出力ゲインを算出する
 [6]に記載の音声処理装置。

符号の説明

[0184]
 11 音声処理装置, 12-1乃至12-N,12 スピーカ, 21 スピーカ選択部, 22 ゲイン算出部, 25 ゲイン調整部, 61 仮想スピーカ位置決定部, 62 3次元ゲイン算出部, 63 2次元ゲイン算出部, 64 乗算部, 65 乗算部, 91 選択部, 92-1乃至92-4,92 3次元ゲイン算出部, 93 加算部

請求の範囲

[請求項1]
 4以上の音声出力部と、
 目標とする音像定位位置近傍に位置する前記4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、
 前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部と
 を備える音声処理装置。
[請求項2]
 少なくとも4以上の前記出力ゲインの値が0でない値とされる
 請求項1に記載の音声処理装置。
[請求項3]
 前記ゲイン算出部は、
  仮想的な音声出力部および2つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記仮想的な音声出力部および前記2つの前記音声出力部の前記出力ゲインを算出する第1のゲイン算出部と、
  前記2つの前記音声出力部とは異なる他の2つの前記音声出力部と、前記仮想的な音声出力部との位置関係に基づいて、前記仮想的な音声出力部の位置に音像を定位させるための前記他の2つの前記音声出力部のゲインを算出する第2のゲイン算出部と、
  前記他の2つの前記音声出力部のゲインと、前記仮想的な音声出力部の前記出力ゲインとに基づいて、前記他の2つの前記音声出力部の前記出力ゲインを算出する演算部と
 を備える
 請求項2に記載の音声処理装置。
[請求項4]
 前記演算部は、前記他の2つの前記音声出力部のゲインに前記仮想的な音声出力部の前記出力ゲインを乗算することにより、前記他の2つの前記音声出力部の前記出力ゲインを算出する
 請求項3に記載の音声処理装置。
[請求項5]
 前記仮想的な音声出力部の位置は、前記4以上の前記音声出力部を頂点とする多角形の辺上に位置するように定められる
 請求項3に記載の音声処理装置。
[請求項6]
 前記ゲイン算出部は、
  3つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記3つの前記音声出力部の前記出力ゲインを算出する仮ゲイン算出部と、
  互いに異なる前記組み合わせについて前記出力ゲインを算出する複数の前記仮ゲイン算出部により算出された前記出力ゲインに基づいて、前記音声出力部の最終的な前記出力ゲインを算出する演算部と
 を備える
 請求項2に記載の音声処理装置。
[請求項7]
 前記演算部は、同じ前記音声出力部について求められた前記出力ゲインの和を求めることで、前記音声出力部の最終的な前記出力ゲインを算出する
 請求項6に記載の音声処理装置。
[請求項8]
 4以上の音声出力部と、
 目標とする音像定位位置近傍に位置する前記4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、
 前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部と
 を含む音声処理システム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]