Processing

Please wait...

Settings

Settings

Goto Application

1. WO2019203124 - MIXING DEVICE, MIXING METHOD, AND MIXING PROGRAM

Document

明 細 書

発明の名称 ミキシング装置、ミキシング方法、及びミキシングプログラム

技術分野

0001  

背景技術

0002   0003   0004   0005  

先行技術文献

特許文献

0006  

発明の概要

発明が解決しようとする課題

0007   0008  

課題を解決するための手段

0009   0010  

発明の効果

0011  

図面の簡単な説明

0012  

発明を実施するための形態

0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155  

符号の説明

0156  

請求の範囲

1   2   3   4   5   6   7   8   9   10   11   12  

図面

1   2   3   4   5   6   7   8   9   10   11A   11B   12   13A   13B   13C   13D   14  

明 細 書

発明の名称 : ミキシング装置、ミキシング方法、及びミキシングプログラム

技術分野

[0001]
 本発明は、入力信号のミキシング技術に関する。

背景技術

[0002]
 スマートミキサは、優先音と非優先音を時間周波数平面上で混合することにより、非優先音の音量感を保ったまま、優先音の明瞭度をあげる新しい音混合法である(たとえば特許文献1参照)。時間周波数平面上の各点で信号特性を判断し、その信号特性に応じて優先音の明瞭度を上げる処理が施される。しかし、スマートミキシングで優先音を明瞭に聞かせることに重点がおかれると、非優先音に若干の副作用(音の欠落感の知覚)が生じ得る。そこで、優先音と非優先音に適用されるゲインを適切に決定することで、より自然な混合音を出力する手法が提案されている(たとえば、特許文献2参照)。
[0003]
 図1は、従来のスマートミキサの構成を示す図である。優先音と非優先音のそれぞれが時間周波数平面上に展開され、それぞれの平滑化パワーから優先音のためのゲインα1と、非優先音のためのゲインα2が導出される。優先音と非優先音にゲインα1とゲインα2をそれぞれ乗算して加算した後に、時間領域信号に戻して出力する。
[0004]
 ゲインの導出には、「対数強度の和の原理」と、「穴埋めの原理」という2つの基本原理が用いられている。「対数強度の和の原理」とは、出力信号の対数強度を入力信号の対数強度の和を超えない範囲に制限するものである。「対数強度の和の原理」によって、優先音が強調されすぎて混合音に違和感が生じることを抑制する。「穴埋めの原理」とは、非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限するものである。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。
[0005]
 これらの原理に基づいて合理的にゲインが決定され、より自然な混合音が出力される。

先行技術文献

特許文献

[0006]
特許文献1 : 特許第5057535号
特許文献2 : 特開第2016-134706号公報

発明の概要

発明が解決しようとする課題

[0007]
 特許文献2の手法は、スマートフォンなどの小型で簡易な再生装置を想定しており、そのような再生装置に適用される限り、優先音を明瞭に維持し、かつ非優先音の劣化(欠落感)を知覚されにくくするという効果を発揮する。しかし、業務用のミキサーでは、高音質を求めて大掛かりな再生装置を用い、大音量での再生もしばしば行われる。小型で簡易な再生装置では知覚されない非優先音の劣化が、不自然な刺激として知覚されることがある。
[0008]
 本発明は、再生装置の規模や品質を問わずに、非優先音の劣化を抑制し、より自然な混合音を出力することのできるミキシング技術を提供することを課題とする。

課題を解決するための手段

[0009]
 本発明では、優先音の中の特定の重要周波数帯域に優先音の強調と非優先音の抑制を含む優先的な音混合処理を適用することで、非優先音の劣化を抑制する。
[0010]
 具体的には、本発明の一つの側面において、時間周波数平面上の第1信号と第2信号のミキシング装置は、
 前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
 前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出するゲイン導出部と、
を有し、
 前記制御信号は、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値は周波数軸上で一定帯域幅を超えて連続せず、
 前記ミキシング装置は、前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する。

発明の効果

[0011]
 上記の構成により、再生装置の規模や品質を問わずに、非優先音の劣化を抑制して、より自然な状態で混合音を出力することができる。

図面の簡単な説明

[0012]
[図1] 従来のスマートミキサの構成を説明する図である。
[図2] スマートミキシングの基本概念を説明する図である。
[図3] 第1実施形態のミキシング装置の概略図である。
[図4] 図3の制御信号生成部の構成例を示す図である。
[図5] 第2実施形態のミキシング装置の概略図である。
[図6] 第3実施形態における高い周波数でのBark軸への変換を示す図であり。
[図7] 第3実施形態における低い周波数でのBark軸への変換を示す図である。
[図8] 第3実施形態のミキシング装置の概略図である。
[図9] Bark軸上で制御信号を生成したときのモニタ画面を示す。
[図10] 実施形態の制御信号生成部の制御信号生成処理を示すフローチャートである。
[図11A] 通常モードでのvivid信号生成器の構成を示す図である。
[図11B] 第3実施形態のvivid信号生成器の構成を示す図である。
[図12] vivid信号生成のソースを選択するGUI画面を例示する図である。
[図13A] 通常モードでの優先音の立ち上がり直後の波形である。
[図13B] 通常モードでの優先音の立ち上がりから100ms経過後の波形である。
[図13C] 選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。
[図13D] 選択モードで相対スペクトルだけが選択されたときの立ち上がりから100ミリ秒経過後の波形である。
[図14] 実施形態のミキシング装置を用いたミキシングシステムの概略図である。

発明を実施するための形態

[0013]
 図2は、スマートミキシングの基本概念を説明する図である。優先音と非優先音のそれぞれに窓関数をかけて短時間のFFT(Fast Fourier Transform:高速フーリエ変換)を行い、周波数平面(Ptf)上の信号に変換する。周波数平面上で、優先音と非優先音のそれぞれにゲインを乗算し、ゲイン乗算後の優先音と非優先音を合算(ミックス)する。合算された信号を時間領域の信号に戻して出力する。
[0014]
 後述するように、本発明は新規な制御信号を用いてゲインを調整し、優先音の明瞭度を保ったまま非優先音の欠落感を抑制する点に特徴がある。ここで、優先音とは、音声、ボーカル、ソロパート等のように、優先的に聞かせたい音である。非優先音とは、バックグラウンド音、伴奏音等、優先音以外の音である。
[0015]
 時間周波数平面上に展開された優先音と非優先音は、時間方向の座標値iと、周波数方向の座標値kを用いて、それぞれX 1[i,k]とX 2[i,k]で表される。時間周波数平面上で、優先音にゲインα1が乗算された信号はY 1[i,k]、非優先音のゲインα2が乗算された信号をY 2[i,k]とする。ゲインが乗算された信号Y 1[i,k]とY 2[i,k]を合算した信号が混合結果を表わす信号Y[i,k]である。この処理は、式(1)と式(2)で表される。
[0016]
[数1]


混合結果を表わす信号Y[i,k]は、時間領域の信号に復元されて、混合音の信号y[n]が出力される。
[0017]
 発明者らは、スマートフォン向けのスマートミキサを高音質が要求される音響機器、たとえばコンサート会場等の業務用機器にそのまま適用して大音量で出力した場合、非優先音の劣化が目立ってしまうという問題を見いだした。スマートフォン向けのスマートミキサの場合でも、非優先音の原音をあらかじめ知っている聴取者がスマートミサーによる混合音を注意深く聴いたときに非優先音の欠落感を感じる場合があるが、従来法では、これを避けるために、優先的混合を行う周波数帯域を350Hz以上に限定するなど、簡易的な措置がとられることもあった。
[0018]
 しかし、コンサート会場やレコーディングスタジオにおけるミキシング装置を考えたときに、350Hz以下の帯域においてこそ優先的混合、すなわち優先音の強調と非優先音の抑制を実施したいことも多く、簡易的な措置では不十分である。
[0019]
 一方で、発明者らは非優先音の劣化が特に目立つ現象を解析したところ、周波数軸上で一定以上の長さにわたって優先音が非優先音を押さえつけてしまう場合に、非優先音の欠落感が顕著になることがわかった。
[0020]
 この知見に基づき、優先的混合は、周波数軸上で一定の長さ以上にわたって連続しないほうがよいという結論に達し、独自の制御信号を導入するに至った。この制御信号は、非優先音欠落感なしに明瞭な混合音を実現するという意味で、この明細書中では「vivid信号」と呼ばれる。
[0021]
 vivid信号は、優先的混合(非優先音の抑制を含む)を適用するか否か、適用するとしたらどの程度で行うかを示す指標である。vivid信号は、周波数軸上で優先的混合が一定の帯域幅を超えて連続しないように生成され、非優先音の劣化が知覚されないようにミキシングを制御する。
[0022]
 優先的混合が適用される一定範囲の周波数帯域として、優先音の中の重要な周波数成分が選択される。たとえば、コンサート会場でボーカル(優先音)とバックバンドの音(非優先音)をミキシングする場合、ボーカルの中に特に重要な周波数帯域が存在する。楽器のみのセッションの場合でも、特定の楽器が演奏するパートの中に重要な周波数帯域が存在する。重要な周波数成分とは、他のパートと比較してエネルギーが集中している帯域と言い換えてもよい。
[0023]
 「vivid信号」は、重要な周波数帯域に対して優先的混合が行われ、それ以外の帯域では単純加算が行われるように生成される。重要な周波数帯域は曲目によって異なるので、ミキシング中にリアルタイムで優先音の重要周波数帯域を判別し、vivid信号を生成する。すなわち、vivid信号によって優先音の重要な周波数部分だけを強調し、非優先音を減衰させる箇所を絞る。vivid信号を用いてゲインマスクを生成することで、優先音の明瞭さを損なわずに、非優先音の音質を向上することができる。
[0024]
 また、スマートミキシングの処理において、人間の聴覚特性に合致させる工夫をする。
[0025]
 <第1実施形態>
 図3は、第1実施形態のミキシング装置1Aの概略図である。ミキシング装置1Aは、信号入力部11、周波数解析部12、信号処理部15A、周波数時間変換部16、及び信号出力部17を有する。信号入力部11は、ミキシングの対象となる複数の入力信号を入力する。入力信号はたとえばオーディオ信号であり、音声等の優先音の信号x 1[n]と、バックグラウンド音等の非優先音の信号x [n]を含む。
[0026]
 周波数解析部12は、周波数解析によって、優先音と非優先音の入力信号を時間周波数平面上に展開する。周波数解析は、短時間FFT(Fast Fourier Transform;高速フーリエ変換)、ウェーブレット変換、フィルタバンクによる変換、ウイグナー分布などの時間周波数分布への変換等、任意の手法を用いることができる。実施形態では、入力信号に窓関数を掛けて、短時間FFTにより入力信号を時間周波数平面上に展開する。時間周波数平面上に展開された優先信号をX 1[i,k]、非優先信号をX 2[i,k]とする。
[0027]
 信号処理部15Aは、パワー算出部14Aを有する。パワー算出部14Aは、時間周波数平面上に展開された入力信号の強度を算出する強度算出部の一例である。入力信号のパワーは振幅の2乗で表される。パワー算出部14Aは、時間周波数平面上の各点(i,k)で、入力信号のパワー|X[i,k]| 2を算出する。後述するように、時間周波数平面上での入力信号強度は、必ずしもパワーに限定されず、対数強度であってもよい。
[0028]
 優先音と非優先音の強度は、時間方向と周波数方向で平滑化された後にゲイン導出部19に入力され、ゲイン導出部19で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化されたパワーをE[i,k]、周波数方向に平滑化されたパワーをF[i,k]とする。
[0029]
 平滑化されたパワーに基づき、ゲイン導出部19によって、優先信号のゲインα 1[i,k]と非優先信号のゲインα 2[i,k]が導出される。ゲインα 1[i,k]とα 2[i,k]は、たとえば、ミキシング装置1Aから出力される混合信号の対数強度が、優先音の対数強度と非優先音の対数強度の和を超えない範囲で優先音が増大され、かつ、優先音のパワー増加分を超えない範囲内で非優先音が減衰されるように決定される。具体的なゲインの算出法として、特許文献2の方法を用いてもよい。
[0030]
 優先信号と非優先信号にそれぞれゲインα1とα2が乗算された後、加算され、混合結果の信号Y[i,k]が信号処理部15Aから出力される。周波数時間変換部16は、信号処理部15の出力信号を時間領域の信号y[n]に変換する。信号出力部17は、時間領域に復元された信号を出力する。
[0031]
 第1実施形態の特徴として、制御信号生成部150によって、優先的混合を行うか、あるいは単純加算を行うかを指示する制御信号(vivid信号)が生成される。vivid信号は、時間周波数平面上に展開された優先音の平滑化スペクトルの絶対量を表わす絶対スペクトルと、優先音スペクトルの局所的な変化を表わす相対スペクトルに基づいて生成される。ゲイン導出部19は、vivid信号に基づいて優先音と非優先音に適用されるゲインを調整する。
[0032]
 図4は、図3の制御信号生成部150の構成例である。制御信号生成部150は、時間方向平滑化部151と、第1の周波数方向平滑化部152と、第2の周波数方向平滑化部153と、減算部154と、vivid信号生成器155を有する。
[0033]
 時間方向平滑化部151は、時間周波数平面上の優先音の信号強度を時間方向に平滑化して、平滑化信号Ev[i,k]を出力する。第1実施形態では、優先音のパワーレベルが信号強度として入力される。
[0034]
 第1の周波数方向平滑化部152は、時間方向に平滑化された信号を、周波数方向に平滑化して、絶対スペクトルFv[i,k]を出力する。絶対スペクトルFv[i,k]は、第2の周波数方向平滑化部153に入力されて2回目の平滑化を受けるとともに、減算部154とvivid信号生成器155にも入力される。2回目の平滑化後の信号をGv[i,k]で表す。
[0035]
 減算部154は、1回目の周波数方向の平滑化結果と、2回目の周波数方向の平滑化結果の差分を求め(Gv[i,k]-Fv[i,k])、この差分をあらわす相対スペクトルHv[i,k]をvivid信号生成器155に供給する。
[0036]
 vivid信号生成器155は、平滑化された絶対スペクトルFv[i,k]と、相対スペクトルHv[i,k]から、後述する手順でvivid信号V[i,k]を生成してゲイン導出部19に出力する。
[0037]
 vivid信号V[i,k]は、時間周波数平面の各点(i,k)で少なくとも2値(たとえば「0.0」と「1.0」)をとる。V[i,k]=0.0である(i,k)に対して、混合は単純加算で行うものとし、V[i,k]=1.0である(i,k)に対して、混合は優先的混合単で行うものとする。ここでいう単純加算とは、時間周波数平面上に展開された優先音と非優先音をそのまま加算する処理であり、ゲインを乗算しないか、または値が1のゲインを乗算する。
[0038]
 vivid信号V[i,k]は必ずしも2値である必要はなく、0.0と1.0の間の任意の値を取り得る。0.0<V[i,k]<1.0を満たす(i,k)に対しては、vivid信号の値に応じて効果を軽減した優先的混合動作を行ってもよい。これにより、単純加算の動作と優先的混合の動作を滑らかに接続することができる。
[0039]
 vivid信号としては、以下の2つの観点から見た条件を両方満たすものが望ましい。
[0040]
 第1の観点は、「非優先音の欠落感を抑止する」という観点である。上述したように、非優先音の欠落感は、周波数軸上で広い帯域にわたって連続して非優先音の抑制が行われると特に顕著になる。このため、周波数軸上でvivid信号が1.0となる帯域と、0.0となる帯域が交互に配置され、かつ、1.0を示す帯域幅が所定範囲を超えないことが望ましい。
[0041]
 第2の観点は、「優先音の明瞭度を上げる効果をできるだけ保つ」という観点である。たとえば、ボーカルには、語句をはっきり聴かせるためのフォルマント成分、子音をはっきり聴かせるための数kHzの帯域成分、音質がこもらないようにするために必要な高周波成分、音のエネルギー感を失わせないための低周波成分などが含まれる。理想的には、これらの周波数成分を、工学的見地、及び音楽理論的見地から検討し、その時点での優先音にとって最も重要な周波数帯域を選択して、vivid信号が1.0になるようにするのが望ましい。
[0042]
 優先音の重要周波数部分ではvivid信号がV[i,k]=1.0を示すことにより、優先的混合が行われる。一方、優先音がそれほど重要でない部分では、V[i,k]=0.0となることにより、単純加算が行われる。これにより、優先音の明瞭度を保ちつつ、非優先音の劣化を抑制することができる。
[0043]
 しかし上述した理想的な方法では、音声認識をはじめとする多数の複雑な判断機構と最適化問題を解く機構が必要となり、実装上、計算コストが膨大になる。そこで、コンサート会場等で、リアルタイムに重要周波数帯を判断してvivid信号を生成するために、図4の制御信号生成部150が用いられる。
[0044]
 上述のように、時間方向平滑化部151は、時間周波数平面上に展開された優先音X 1[i,k]のパワー|X 1[i,k]| 2を時間方向に平滑化して、時間平滑化パワーEv[i,k]を得る。時間平滑化パワーEv[i,k]は、式(3)で求められる。
[0045]
[数2]


ここで、μvは指数平滑化方法の係数であり、平滑の時定数τvとサンプリング周波数F sから、式(4)で求められる。
[0046]
[数3]


ここで、N dは、サンプリング周波数F で取得された優先音と非優先音に対してN F点の短時間FFTを行う際に適用される窓関数のシフト数である(N 点シフト)。
[0047]
 時間平滑化パワーEv[i,k]は、第1の周波数方向平滑化部152で、周波数方向に平滑化され、Fv[i,k]が得られる。このとき、Ev[i,k]は、
   -N F/2≦k<N F/2
に対してのみ定義されているので、平滑化には注意が必要である。定義外の部分(k<-N F/2,およびN F/2≦k)を0とおいて平滑化すると、|k|≒N F/2に対して絶対スペクトルFv[i,k]が著しく減少する場合がある。そこで、Ev[i,k]の未定義の部分について、式(5)及び式(6)のように定義域を拡張してから平滑化を行うのが望ましい。
[0048]
[数4]


 こうして拡張されたEv[i,k]を周波数方向に平滑化して(1回目の周波数方向の平滑化)、絶対スペクトルFv[i,k]を得る。Fv[i,k]は式(7)で表される。
[0049]
[数5]


ここで、f()は平滑化の重み係数、N Aは平滑化の幅である。
[0050]
 Fv[i,k]に対して2回目の周波数方向の平滑化を行い、Gv[i,k]を得る。
Gv[i,k]は、式(8)で表される。
[0051]
[数6]


ここで、g()は平滑化の重み係数である。第1の周波数方向の平滑化と第2の周波数方向の平滑化は、f()とg()の係数テーブルをミキシング装置1Aのメモリに記憶しておき、その係数を乗算することで実施してもよい。ミキシング装置1Aの演算処理を、FPGA(Field Programmable Gate Array)などのロジックデバイスで実装する場合、FPGAに内蔵されるメモリ領域を用いてもよい。
[0052]
 重み係数の適用に替えては、一定区間の和をとる演算の縦続接続、たとえば、式(9)~(12)の演算を行うことで、実質的にガウス型に近い効果、すなわちf()とg()を使ったのと同じ効果を得ることができる。
[0053]
[数7]


この方法は乗算器が必要ないため、FPGAにスマートミキシングを実装する場合に特に有利である。
[0054]
 次に、Fv[i,k]とGv[i,k]の差を取ることで、式(13)で表される相対スペクトルHv[i,k]を得る。
[0055]
[数8]


 1回目の周波数方向の平滑化後のパワーFv[i,k]はスペクトルの絶対量を表わしているとみることができ、Fv[i,k]を絶対スペクトルと呼ぶ。一方、2回目の周波数方向の平滑化後のパワーGv[i,k]は、Fv[i,k]の大局的な概形を表わしている。Fv[i,k]とGv[i,k]の差で定義されたHv[i,k]は、周波数軸上の局所領域に着目したときのFv[i,k]の相対的な凹凸(変化)をあらわしていると解釈できる。そこで、Hv[i,k]を相対スペクトルと呼ぶ。
[0056]
 相対スペクトルHv[i,k]の振る舞いについて考える。たとえば、語句をはっきりと聴かせるフォルマント周波数においては、Hv[i,k]は正になることが期待される。また、フォルトマントとフォルトマントの隙間の周波数では、Hv[i,k]は負になることが期待される。楽器音の場合においても、エネルギーが相対的に集中している重要な周波数ではHv[i,k]は正になることが期待され、重要な周波数と重要な周波数の隙間の領域では、Hv[i,k]は負になることが期待される。
[0057]
 まず、vivid信号の候補として、相対スペクトルから、式(14)の信号V H[i,k]を考える。
[0058]
[数9]


時間周波数平面上の点(i,k)における相対スペクトルHv[i,k]が一定の閾値H L[k]よりも小さい場合には、V H[i,k]=0.0とする。相対スペクトルHv[i,k]が一定の閾値H H[k]以上である場合(すなわちエネルギーが高い場合)は、V H[i,k]=1.0とする。相対スペクトルHv[i,k]が、閾値H L[k]以上でありH H[k]よも小さい場合には、その位置での相対スペクトルの値に応じて、0.0以上で、1.0よりも小さい値を与える。
[0059]
 たとえば、最も簡単な設定として、H L[k]=H H[k]=0とすれば、周波数軸上でV H[i,k]が1.0となる帯域と0.0となる帯域が、一定間隔以内で交互にあらわれやすくなり、上述した「非優先音の欠落感を抑止する」ため(第1の観点)の条件をほぼ満たしている。また、フォルマント周波数においてV H[i,k]が1.0となることが期待されていることから、「優先音の明瞭度を上げる効果をできるだけ保つ」ため(第2の観点)の条件も満たしている。したがって、V H[i,k]はvivid信号として有力な候補である。
[0060]
 しかし、vivid信号として式(14)で定義されるV H[i,k]をそのまま使うと、優先音の音強度が非常に小さい場合(たとえば、ボーカルが発声を行っていないときにボーカルのマイクにバックバンドの音が混入している場合)にも、vivid信号が1.0となってしまうおそれがある。
[0061]
 そこで、絶対スペクトルから、式(15)によってV F[i,k]を求める。
[0062]
[数10]


式(15)では、絶対スペクトルFv[i,k]が一定の閾値F L[k]よりも小さい場合は、時間周波数平面上の点(i,k)において優先音は発声されていないとして、V F[i,k]を0.0とし、絶対スペクトルFv[i,k]が一定の閾値F H[k]以上である場合は、優先音が発声されているとしてV F[i,k]=1.0とする。絶対スペクトルFv[i,k]が、2つの閾値の間にあるときは、その位置での絶対スペクトルの値に応じて0.0よりも大きく、1.0よりも小さい値を与える。
[0063]
 以上の準備のもとで、vivid信号V[i,k]を、V F[i,k]とV H[i,k]の最小値(いずれか小さい方の値)として、式(16)のように定義する。
[0064]
[数11]


 式(16)にしたがってvivid信号生成器155で生成されるvivid信号は、ゲイン導出部19における優先的混合と単純加算の切り替えに用いられる。この切り替えは、具体的には、以下の方法で実現される。
[0065]
 スマートミキサのパラメータには、優先音のゲインα1の上限T 1Hと、非優先音のゲインα2の下限T 2Lが設定される。これは、優先音を所定の閾値を超えない範囲内で強調し、非優先音を所定の閾値を超えない範囲内で抑制するという「穴埋めの原理」によるものである。これらの閾値を、時間周波数平面の各点(i,k)ごとに、式(17)及び式(18)のように、定義しなおす。
[0066]
[数12]


 調整されたゲインの上限T 1Hと下限T 2Lと閾値を用いて、V[i,k]=1.0のときに優先的混合が行われ、V[i,k]=0.0のときに単純加算が行われる。単純加算と優先的混合の間は、V[i,k]の値に応じて優先的混合の度合いが変化して、優先的混合と単純加算の間を滑らかに接続することができる。なお、優先音のためのゲインα1は、一つ前の時間フレーム(i-1)におけるα1を、調整された上限T 1Hを超えない範囲で、所定のステップサイズだけ増加させることによって得られる。非優先音のためのゲインα2は、一つ前の時間フレーム(i―1)におけるα2を、T 2Lよりも小さくならない限度で所定のステップサイズだけ減少させることによって得られる。
[0067]
 vivid信号により優先的混合を行うか否かが特定され、優先的混合を行う際に、合理的な範囲内で算出されるゲインα1とα2を用いて優先音と非優先音が加算される。時間領域に復元される混合信号により、優先音が強調され、かつ非優先音が十分な音量感をもつ自然な音が再生される。
[0068]
 <第2実施形態>
 図5は、第2実施形態のミキシング装置1Bの概略図である。第1実施形態のミキシング装置1Aと同じ構成要素には同じ符号を付けて、重複する説明を省略する。第1実施形態では、時間周波数平面上に展開された優先音のパワー(振幅の2乗)に基づいて、vivid信号を生成した。第2実施形態では、時間周波数平面上に展開された優先音の絶対値の対数に基づいてvivid信号を生成する。
[0069]
 第1実施形態のように、優先音と非優先音をパワー|X 1[i,k]| 2と|X 1[i,k]| 2で評価すると、2乗することでビット長が2倍になる。スマートミキサをFPGA等のロジックデバイスで実現する場合、処理量が多くなる。
[0070]
 一方、スマートミキサにグラフィカルな表示装置を設け、時間周波数平面上のパワーを濃淡もしくは疑似カラーで表示する場合、対数演算が行われる。表示のために対数演算を行うのであれば、強度関連の演算について、はじめから対数をとって(dB表記により)演算を行う方が簡便である。
[0071]
 ミキシング装置1Bは、信号入力部11、周波数解析部12、信号処理部15B、周波数時間変換部16、及び信号出力部17を有する。信号入力部11は、ミキシングの対象となる優先信号と非優先信号を入力する。周波数解析部12によってそれぞれ時間周波数平面上に展開された信号X 1[i,k]とX 2[i,k]は、信号処理部15Bに入力される。
[0072]
 信号処理部15Bは、強度算出部として、対数強度算出部14Bを有する。対数強度算出部14Bは、たとえばCORDIC法を用いて、入力された複素数値の信号X 1[i,k]とX 2[i,k]のノルム|X 1[i,k]|、及び|X 2[i,k]|を求める。次に、たとえばメモリ等に記憶されたテーブルを参照して対数演算を行い、優先音の対数強度log|X 1[i,k]|と、非優先音の対数強度log|X 2[i,k]|を算出する。
[0073]
 優先音と非優先音の対数強度は、時間方向と周波数方向で平滑化された後にゲイン導出部19に入力され、ゲイン導出部19で、優先信号と非優先信号のそれぞれに対するゲインが算出される。時間方向に平滑化された対数強度をE[i,k]、周波数方向に平滑化された対数強度をF[i,k]とする。
[0074]
 平滑化された対数強度と、制御信号生成部150からのvivid信号に基づいて、ゲイン導出部19により、優先信号のゲインα 1[i,k]と、非優先信号のゲインα 2[i,k]が導出される。ゲインα 1[i,k]とα 2[i,k]は、一定の重要周波数帯域において、式(17)と式(18)で定義された上限と下限を超えない範囲内で優先音が増大され、非優先音が減衰されるように決定される。
[0075]
 優先信号と非優先信号にそれぞれゲインα1とα2が乗算された後、加算され、混合結果の信号Y[i,k]が信号処理部15Bから出力される。周波数時間変換部16は、信号処理部15の出力信号を時間領域の信号y[n]に変換する。信号出力部17は、時間領域に復元された信号を出力する。
[0076]
 第2実施形態では、優先音の対数強度log|X 1[i,k]|が制御信号生成部150に入力されて、ゲインの導出を制御するvivid信号が生成される。制御信号生成部150の構成は、図4の構成と同じである。異なる点は、時間方向平滑化部151に入力される信号強度が、時間周波数平面上の優先音のパワーではなく、優先音の振幅の対数値となる点である。
[0077]
 時間方向平滑化部151以降の動作は、第1実施形態と同じである。すなわち、入力された対数強度は時間方向と周波数方向に平滑化されて平滑化スペクトル(絶対スペクトル)が生成される。絶対スペクトルはさらに周波数方向に平滑化され、絶対スペクトルとの差分に基づいて、周波数軸上の局所的な変化を表わす相対スペクトルが生成される。vivid信号生成器155は、絶対スペクトルに基づく信号値と、相対スペクトルに基づく信号値のいずれか小さい方にしたがってvivid信号を生成し、出力する。
[0078]
 ゲイン導出部19は、優先音と非優先音の平滑化された対数値と、vivid信号とに基づいてゲインα1とα2を生成する。優先音と非優先音の入力信号にゲインα1とα2がそれぞれ乗算され、乗算値が加算されて、混合結果の信号Y[i,k]が信号処理部15Bから出力される。信号Y[i,k]は、周波数時間変換部16で時間領域の信号に復元され、信号出力部17から出力される。
[0079]
 なお、図5における時間方向に平滑化された信号E[i,k]と周波数方向に平滑化された信号F[i,k]は、いずれも対数強度を用いた新しい変数であり、第1実施形態の図3に示されている信号E[i,k]とF[i,k]とは値が異なる。また、制御信号生成部150で生成される時間方向平滑化信号Ev[i,k]、絶対スペクトルFv[i,k]、相対スペクトルHv[i,k]なども、算出方法は同じであるが値は異なる。
[0080]
 人間は、パワーの大きさに関して対数的に感じる聴覚特性を持っているので、平滑化の縦軸に関しては、パワーよりも対数強度の値をベースにすることで、聴取者の感覚に適したミキシング処理を行うことができる。
[0081]
 <第3実施形態>
 第3実施形態では、周波数方向での平滑化を行う際に、人間の聴覚特性を反映させる。実施形態では、vivid信号の生成のために、1回目の周波数方向の平滑化で絶対スペクトルFv[i,k]が得られ、2回目の周波数方向の平滑化により、大局的な概形を表わすスペクトルGv[i,k]が得られる。Fv[i,k]とGv[i,k]は、上述した式(7)と式(8)でそれぞれ得られる。
[0082]
 平滑化を式(7)と式(8)で実行するとき、平滑化の効果は周波数軸の全ての位置で同一となる。しかし、人間の聴覚フィルタは、低い周波数で狭く、高い周波数で広いという特性を有している。換言すると、低い周波数帯域で聴覚の分解能が高く、高い周波数帯域で分解能は低くなる。
[0083]
 周波数方向への平滑化処理を、人間の聴覚特性に合致させるならば、式(7)におけるf()と、式(8)におけるg()に周波数依存性を持たせることが望ましい。しかし、周波数依存性を持たせようとすると、そのデータを記憶するメモリの追加容量が必要になるだけでなく、式(9)~(12)の加算器だけの計算が使えなくなり、計算負荷が大きくなる。
[0084]
 一方、人間の聴覚フィルタの特性を考慮した周波数尺度として、Bark尺度、ERB(Equivalent Rectangular Bandwidth:等価矩形帯域幅)尺度などが知られている。Bark尺度の範囲は、1から24であり、聴覚の24の臨界帯域に対応している。Bark尺度に基づく周波数軸はBark軸と呼ばれ、ERB尺度に基づく周波数軸はERB軸と呼ばれる。これらの軸を使って時間周波数平面を構成することで、f()やg()に周波数依存性を持たせなくても、式(7)と式(8)による平滑化の処理が、人間の聴覚特性に合致したものとなる。すなわち、低い周波数では狭い平滑化が行われ、高い周波数では広い平滑化が実施される。そこで、平滑化に先立って、周波数軸の変換を行う。
[0085]
 図6は、高い周波数でのBark軸への変換を示す図であり、図7は、低い周波数でのBark軸への変換を示す図である。図6と図7を参照して、線形周波数軸からBark軸へのデータの変換について説明する。図6と図7において、左から2番目の縦軸は線形周波数軸fであり、最も左側の縦軸は、線形周波数軸のビン番号kである。左から3番目の縦軸は、Bark軸f Barkである。一番右側の縦軸は、Barkビン番号hである。f軸上のビンとBark軸(f Bark)上のビンは、周波数帯域によって、1対1であってもよいし、多対1、あるいは1対多であってもよい。
[0086]
 線形軸の周波数fからBark軸の周波数f Barkへの変換関数をJ B()とすると、この変換は式(19)及び式(20)であらわされる。
[数13]


 線形軸データの0~F S/2[Hz]の周波数成分が、ビン番号0~N F/2の(N F/2+1)個の周波数ビン上にあらわされているとする。このうち0~F B[Hz]の周波数成分をBark軸に変換し、ビン番号0~N Bの(N B+1)個のBarkビンであらわすように変換するものとする。
[0087]
 変換は、Barkビン番号hが相当する周波数に最も近い線形周波数軸上の周波数ビン番号kのデータをそのまま使うという簡単な方法でもよい。しかし、この方法では、小さなhにおいては、同じkのデータを繰り返し参照することになる。また、大きなhに対しては読み飛ばされるkが生じ得る。結果として、時間周波数平面上での値の滑らかさが失われる場合がある。そこで、図6及び図7の処理を行うことで、Bark軸での時間周波数平面上のデータを滑らかにする。
[0088]
 まず、第h番目のBarkビンに対応する線形周波数領域の下限と上限をそれぞれf L(h)とf H(h)とすると、下限と上限は、式(21)と式(22)で表される。
[0089]
[数14]


 図6を参照すると、第57番目のBarkビンに対応して、56.5/N Bが下限を求めるときの係数として用いられ、57.5/N Bが上限を求めるときの係数として用いられる。
[0090]
 一方、第k番目の線形周波数ビンに対応する周波数は、kF S/N F[Hz]なので、変換前のデータを周波数軸上に展開すると、図6の折れ線グラフを描くことができる。折れ線は、線形周波数軸での信号強度(パワーまたは対数強度)を表わす。折れ線と線形周波数軸fの間の領域のうち、上限f H(57)と下限f L(57)に挟まれた斜線の領域の面積を求める。この面積を線形周波数軸上の間隔k Δ(57)で除算することで、Barkビン番号h=57に対応する線形周波数fのビン番号が得られる。ここで、
   k Δ(h)=N F/F S(f H(h)-f L(h))
である。
[0091]
 図6のように高い周波数領域では、Bark軸上のひとつのhが線形周波数軸上の多数のkを参照することになるが、上述した変換処理により滑らかな変換が実現される。
[0092]
 図7のように低い周波数領域では、複数のhから、ひとつの区間、すなわちkとk+1の間の区間が参照されるが、この場合も上述した方法でなめらかな変換が実現できる。すなわち、Barkビンhが17の場合、上限をf H(17)と下限をf L(17)の間の斜線の領域の面積を求め、この面積をk Δ(17)で除算することで、Barkビン番号h=17に対応する線形周波数fのビン番号が得られる。
[0093]
 上述した周波数変換の演算は、Barkビン番号hごとに、どのkをどのような重みで加算するかという計算をあらかじめ求めておき、これをテーブルとして格納しておくことで、FPGAでも容易に実行することができる。
[0094]
 なお、逆変換(Bark軸から線形軸に戻す処理)も、同じ方法で逆向きの方向の演算により表現することができる。
[0095]
 図8は、第3実施形態のミキシング装置1Cの概略図である。第1実施形態及び第2実施形態と同じ構成要素には同じ符号を付けて、重複する説明を省略する。ミキシング装置1Cは、信号入力部11と、周波数解析部12と、信号処理部15Cと、周波数時間変換部16と、信号出力部17を有する。信号入力部11、周波数解析部12、周波数時間変換部16、及び信号出力部17の構成と動作は、第1実施形態及び第2実施形態と同じである。
[0096]
 信号処理部15Cは、平滑化器、乗算器、加算器等の他に、強度算出部としての対数強度算出部14B、周波数軸変換部18、周波数軸の逆変換部21、ゲイン導出部19、及び制御信号生成部250を有する。信号処理部15Cのうち、二重丸(◎)は線形周波数軸上での信号をあらわし、黒丸(●)は、Bark軸上での信号をあらわす。
[0097]
 信号処理部15Cにおいて、対数強度算出部14Bは、入力された複素数値の信号X 1[i,k]とX 2[i,k]から、優先音の対数強度log|X 1[i,k]|と、非優先音の対数強度log|X 2[i,k]|を算出する。
[0098]
 優先音と非優先音の対数強度log|X 1[i,k]|とlog|X 2[i,k]|は、周波数軸変換部18によって、人間の聴覚尺度に合致する周波数軸(たとえばBark軸)に変換される。Bark軸に変換された優先音と非優先音の対数強度D 1 B[i,h]とD 2 B[i,h]は、それぞれ時間方向と周波数方向に平滑化された後に、周波数軸の逆変換部21によって、線形周波数軸の平滑化信号F 1[i,k]とF 2[i,k]に戻された後に、ゲイン導出部19に入力される。
[0099]
 一方、Bark軸上での優先音の対数強度D 1 B[i,h]は、制御信号生成部250に入力されて、vivid信号の生成に用いられる。時間方向平滑化部251は、Bark軸上での優先音の対数強度D 1 B[i,h]を時間方向に平滑化して、時間方向平滑化信号E V B[i,h]を出力する。第1の周波数方向平滑化部252は、時間方向に平滑化された信号に周波数方向平滑化を行い、絶対スペクトルF V B[i,h]を出力する。
[0100]
 第2の周波数方向平滑化部253は、周波数方向に平滑化された信号をさらに平滑化し、絶対スペクトルF V B[i,h]の大局的な概形を表わすスペクトルG V B[i,h]を出力する。減算部254は、絶対スペクトルと相対スペクトルの差分を計算して、相対スペクトルH V B[i,h]を出力する。
[0101]
 絶対スペクトルF V B[i,h]と相対スペクトルH V B[i,h]は、vivid信号生成器255に入力され、vivid信号生成器255からBark軸上の制御信号V B[i,h]が出力される。周波数軸の逆変換部356は、制御信号V B[i,h]を線形周波数軸に戻してから、vivid信号V[i,k]をゲイン導出部19に供給する。
[0102]
 制御信号生成部250において、2回の周波数方向の平滑化をBark軸上(あるいはERBなど、他の聴覚尺度軸であってもよい)で行ってからvivid信号を生成するので、より人間の聴覚に即した制御信号を生成することができる。グラフィカルな表示装置を接続して時間周波数平面上のパワーを濃淡または疑似カラーで表示する場合にもBark軸で表示することができるため、処理が効率的になる。
[0103]
 図9は、Bark軸上で制御信号を生成したときのモニタ画面を示す。図9の左側の3つのスペクトルが、bark軸での絶対スペクトルF V B [i,h]とその下限閾値F L B [i,h]、及び上限閾値F H B [i,h]である。中央の3つのスペクトルが、bark軸での相対スペクトルH V B [i,h]とその下限閾値H L B [i, h]、及び上限閾値H H B [i,h]である。図9の右側のスペクトルが出力されるvivid信号V B [i,h]である。vivid信号は、0.0~1.0の範囲の値をとる。
[0104]
 絶対スペクトルF V B [i,h]が、下限閾値F L B [i,h]と上限閾値F H B [i,h]に対してどの位置にあるかによって、局所的なエネルギー集中の評価結果であるvivid信号V B [i,h]が決まってくる。たとえば、絶対スペクトルF V B [i,h]が下限閾値F L B [i,h]よりも小さいときは、局所的に集中するエネルギーがないため、単純加算を行うべく、vivid信号の値は0.0に設定される。絶対スペクトルF V B [i,h]が上限閾値F H B [i,h]以上になると、そのエネルギー集中(優先音)を強調し、かつ非優先音の劣化を抑制して優先的混合を行うために、vivid信号の値は暫定的に1.0に設定される(式(15)参照)。それ以外の場合は、vivid信号は絶対スペクトルの値に応じた中間値をとる。
[0105]
 絶対スペクトルの上限閾値F H B [i,h]と下限閾値F L B [i,h]は、周波数帯域によって大きさが異なる。高い周波数領域では騒音エネルギーが比較的低いため、設定閾値を小さくする。低い周波数領域では騒音エネルギーが比較的高いため、設定閾値を大きくしてある。
[0106]
 次に、相対スペクトルH V B [i,h]に着目すると、相対スペクトルH V B [i,h]が下限閾値H L B [i,h]よりも小さい場合は、vivid信号の値は0.0に設定され、上限閾値H H B [i,h]以上になると、vivid信号の値は暫定的に1.0に設定される(式(14)参照)。それ以外の場合は、vivid信号は相対スペクトルの値に応じた中間値をとる。上限閾値H H B [i,h]と下限閾値H L B [i,h]の間隔がゼロに近づくと、vivid信号の暫定値は実質的に2値の信号になる。
[0107]
 最終的に出力されるvivid信号V B [i,h]は、相対スペクトルに基づくvivid信号と、絶対スペクトルのいずれか小さい方の値をとる(式(16)参照)。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号の双方が1.0のときは、出力されるvivid信号V B [i,h]の値は1.0になる。相対スペクトルに基づくvivid信号と絶対スペクトルに基づくvivid信号のいずれか一方が0.0のときは、出力されるvivid信号V B [i,h]の値は0.0になる。このように、絶対スペクトルと相対スペクトルの評価の厳しいほうに基づいて出力されるvivid信号が決定される。
[0108]
 これにより、vivid信号が0.0になる帯域と1.0になる帯域がBark軸上の一定間隔以内で交互にあらわれ、Bark軸上で長く連続して優先的混合が実施されることを抑制することができる。換言すると、Bark軸上で非優先音が長い区間にわたって減衰されることを抑制し、優先音を強調しつつ、非優先音の劣化を防止することができる。
[0109]
 なお、絶対スペクトルの上限閾値と下限閾値、及び相対スペクトルの上限閾値と下限閾値を、ユーザ入力により設定可能にしてもよい。たとえば、周波数帯域に応じて設定される閾値を変えてもよい。
[0110]
 <第3実施形態の変形例>
 図8では、制御信号生成部250においてBark軸上で表現されるvivid信号が、線形周波数軸上に逆変換されてから、ゲイン導出部19に入力され、ゲインの導出は線形周波数軸上で行われている。これは、ゲイン導出部19で信号エネルギーを評価する場合などに、線形軸のほうが都合がよいからである。
[0111]
 しかし、そのような必要がない場合は、ゲインの導出をBark軸上で行ってもよい。この場合は、Bark軸上で表現されたゲインマスク(時間周波数平面上の各点でのα1とα2)を逆変換によって線形周波数軸に戻してから、ゲインの乗算を行えばよい。
[0112]
 周波数軸の変換を行う場合は、Bark軸に替えてERB軸に変換してからvivid信号を生成してもよい。
[0113]
 制御信号生成部250によるvivid信号生成のための時間方向の平滑化の時定数と、ゲイン導出の際の優先音の平滑化のための時定数が等しくてもよいのであれば、E V B[i,h]=E 1 B[i,h]となるので、優先音に対する時間軸方向の平滑化のブロックを共用することができる。さらに、周波数方向の平滑化の重み係数も等しくてもよいのであれば、F V B[i,h]=F 1 B[i,h]であるので、周波数方向の平滑化ブロック(第1の平滑化)を共用することができる。
[0114]
 グラフィカルな表示装置によるパワー表示をBark軸上で行う必要が無ければ、優先音と非優先音のパワーに対して周波数軸の変換を行わなくてもよく、対応する逆変換も省略できる。この場合、周波数軸変換部18と、周波数軸の逆変換部21を省略できる。D 1 B[i,h]とD 2 B[i,h]を求めないので、優先音と非優先音の対数強度log|X 1[i,k]|とlog|X 2[i,k]|を、そのまま時間方向に平滑化してもよい。
[0115]
 さらに、制御信号生成部250で2段階の周波数の平滑化(周波数方向平滑化部252と253の処理)を行うかわりに、バンドパスフィルタを用いることもできる。バンドパスフィルタは、通過周波数の中心周波数で出力が正負の反転を繰り返すため、vivid信号が1.0となる帯域と、0.0となる帯域が一定間隔以内で交互にあらわれるという条件を満たすことができる。
<その他の変形例>
 vivid信号は、音声等の優先音の重要周波数部分で1.0となる信号である。一方、マイクロフォンに混入する別の音(一般に「かぶり」と呼ばれる音)は、信号レベルが一定範囲内であれば、vivid信号とほぼ無関係のスペクトルを持つ。
[0116]
 vivid信号を「かぶり」のあるマイク信号に乗算することで、マイク信号のかぶりを低減できる。なぜなら、vivid信号を乗算することで、vivid信号が1.0である部分、すなわち音声の重要部分のみを残しのみを残し、かぶり成分についてはそのような効果が生じなりため、総合的にみると、音声の強調が行われるからである。
[0117]
 制御信号生成部150、250で、相対スペクトルHv [i,k]は、必ずしも周波数方向の第1の平滑化強度と第2の平滑化強度の差分で表す必要はなく、2つの平滑化強度の比を用いて表現してもよい。
[0118]
 図10は、実施形態の制御信号の生成フローを示すフローチャートである。まず、時間周波数平面上の各点(i,k)で優先音の強度(パワー、対数強度など)を取得する(S11)。優先音の強度を時間方向と周波数方向に平滑化した平滑化スペクトル(絶対スペクトル)と、絶対スペクトルの局所的な凹凸(変動)を示す相対スペクトルを求める(S12)。
[0119]
 絶対スペクトルに基づく信号V F[i,k]と、相対スペクトルに基づく信号V H[i,k]を生成し(S13)、V F[i,k]とV H[i,k]のいずれか小さい方の値をvivid信号として出力する(S14)。すべての点(i,k)について処理が終わるまで(S15でYES)、ステップS11~14の処理を繰り返す。この処理により、vivid信号V[i,k]が1.0となって優先的混合(非優先音に対する抑制処理を含む)が実施される周波数区間が連続することを抑制し、広範囲にわたる非優先音の抑制を防止することができる。
[0120]
 vivid信号が1.0のときは、優先音を増大させるゲインα1が優先音に乗算され、優先音の増大の範囲内で非優先音を減少させるゲインα2が非優先音に乗算され、乗算結果が加算される。vivid信号が0.0のときは、単純加算が行われる。vivid信号が0.0と1.0の間の値をとるときは、ゲインα1とα2にvivid信号の値に応じた係数を乗算して、α1の増幅率とα2の減衰率を小さくしてもよい。
[0121]
 <第4実施形態>
 上述した第1~第3実施形態では、vivid信号を制御信号として用いて、優先音の特定の周波数帯域に優先的な音混合処理を適用して、自然な混合音を出力している。第4実施形態では、優先音の立ち上がりをさらに良くする構成と手法を提供する。
[0122]
 vivid信号は、優先音の中の特定の重要な周波数帯域に対して優先的混合を適用し、それ以外の帯域では単純加算を行うことで、非優先音の劣化を抑制する制御信号である。このvivid信号が「1」または所定のレベルに立ち上がるのに時間的な遅れがあると、優先的な混合処理のタイミングが遅れて、優先音の立ち上がりが不十分になる場合があり得る。
[0123]
 そこで、vivid信号の立ち上がり遅延を解消して、タイミング遅れなしに優先的な混合処理を適用して優先音の立ち上がりを改良する。
[0124]
 発明者らは、vivid信号が「1」または所定のレベルに立ち上がるのに時間遅れが生じるときの原因を解明した。第1には、絶対スペクトルFv[i,k]を作る際に、周波数解析の窓関数の大きさによって遅延が生じ得ること、第2に、指数平滑化によりさらなる遅延が起こり得ること、である。
[0125]
 絶対スペクトルFv[i,k]の生成が遅れると、絶対スペクトルFv[i,k]を元にして創られる相対スペクトルHv[i,k]にも、遅延が生じる。
[0126]
 音があるレベルに達してからvivid信号を「1」または所定のレベルにするのでは、どのような方法をとってもある程度の遅れは生じる。そこで、第4実施形態では、優先音が無音のときはvivid信号をすべての帯域で「1」に設定し、優先音が解析可能なレベルに達して、かつ、解析可能な時間を経過したときに、必要な帯域だけvivid信号を「0」にする。
[0127]
 無音時にvivid信号を「1」にすることから、絶対スペクトルの基準を用いることができない。状況に応じて、絶対スペクトルの基準と相対スペクトルの基準を選択可能にする。たとえば優先音が無音のときは、相対スペクトルの基準だけでvivid信号を生成し、また、相対スペクトルの上限閾値H B H[h]を負にする。これらの具体的な構成を説明する。
[0128]
 図11Aは、第1~第3実施形態で用いられるvivid信号生成器155Aの動作ブロックを示し、図11Bは、第4実施形態のvivid信号生成器155Bの動作ブロックを示す。図11Aのvivid信号生成器155Aの動作態様を「通常モード」と呼ぶ。図11Bのvivid信号生成器155Bの動作態様を「選択モード」と呼ぶ。
[0129]
 図11Aのvivid信号生成器155Aでは、絶対スペクトルFv[i,k]に式(15)の関数を適用して信号V F[i,k]を生成し、相対スペクトルHv[i,k]に式(14)の関数を適用して信号V H[i,k]を生成し、この2つの制御信号のうち、いずれか小さい方を最終的なvivid信号V[i,k]として出力する。
[0130]
 図11Bのvivid信号生成器155Bは、絶対スペクトルの基準を使うか否かを選択する第1スイッチ(ABS-SW)と、相対スペクトルの基準を用いるか否かを選択する第2スイッチ(REL-SW)を有する。
[0131]
 絶対スペクトルの基準を使用しない場合は、第1スイッチ(ABS-SW)は、固定値「1.0」を選択する。相対スペクトルの基準を使用しない場合は、第2スイッチ(REL-SW)は、固定値「1.0」を選択する。第1スイッチ(ABS-SW)と第2スイッチ(REL-SW)の選択結果のうち、いずれか小さい方の値が、最終的なvivid信号V[i,k]として出力される。
[0132]
 この選択処理は、制御信号生成部150(図4)または250(図8)が、入力された優先音信号の強度に基づいて判断し、実行してもよいし、ユーザ入力にしたがって実行されてもよい。
[0133]
 図12は、ユーザ入力によるモード選択を可能にするインタフェース(GUI)の一例である。モード選択ウィンドウ(Vivid Src)に、絶対スペクトル基準(ABS)選択ボックスと、相対スペクトル基準(REL)選択ボックスが表示され、たとえばボックスにチェックを入れることで選択可能である。
[0134]
 図12の(a)~(d)のように、4通りの組み合わせが可能である。図12(a)で絶対スペクトル基準(ABS)と相対スペクトル基準(REL)の両方が選択されているときは、第1~第3実施形態のように、絶対スペクトルと相対スペクトルのそれぞれから制御信号が生成されて、いずれか小さい方が出力される。
[0135]
 図12(b)のように、相対スペクトル基準(REL)だけが選択されていると、相対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。絶対スペクトルの制御信号値が「1.0」に固定され、常に相対スペクトルから生成される信号V H[i,k]の方が小さくなるからである。
[0136]
 図12(c)のように、絶対スペクトル基準(ABS)だけが選択されていると、絶対スペクトルから生成された制御信号だけを用いてvivid信号が生成される。相対スペクトルの制御信号値が「1.0」に固定され、常に絶対スペクトルから生成される信号V F[i,k]の方が小さくなるからである。
[0137]
 図12(d)のように、いずれのスペクトル基準も選択されていない場合は、vivid信号を使わないスマートミキサとなり、すべての帯域において、スマートミキサのゲイン決定手法(「対数強度の和の原理」と「穴埋めの原理」に基づく手法)によって、ゲインが決定される。
[0138]
 図12の4つの組み合わせの中から、混合する音の性質、現場の状況等に応じて、最も好ましい設定を選ぶことができる。
[0139]
 図13Aは、通常モードでの優先音の立ち上がり直後の波形の一例を示す。通常モードでは、絶対スペクトル基準と相対スペクトル基準の両方が用いられるが、優先音の立ち上がり直後に相対スペクトルが十分に立ち上がっていない場合、vivid信号は、全周波数帯域にわたって0またはその近傍の値となっている。そのため、スマートミキシングの動作はほとんど行われず、優先音(たとえばボーカル)は強調されない。換言すると、優先音の立ち上り部分でのゲインが相対的に不足しており、ミキシング音中の優先音の立ち上りが不十分に聴こえことがある。
[0140]
 図13Bは、通常モードでの優先音の立ち上がりから100ms経過後の波形である。相対スペクトルが十分に成長しているので、vivid信号の値が「1」となる帯域が半分近くまで増加し、スマートミキシングで期待されている優先音の強調が行われている。
[0141]
 図13Cは、選択モードで相対スペクトルだけが選択されたときの立ち上がり直後の波形である。相対スペクトルだけを選択する設定は、優先音の立ち上りを特に重視したい場合に行われる。
[0142]
 ここで、相対スペクトルの上限閾値H B H[h]を負にするという特殊な設定にすることで、無音時または優先音の立ち上り時の相対スペクトルは常に上限閾値を超え(式(14)参照)、vivid信号は全帯域で「1」になる。
[0143]
 このように設定しても、非優先音にはほとんど影響しない。無音時や優先音の立ち上り時には、そもそも優先音のエネルギーは弱いので、スマートミキシングのゲイン決定の法則よって、非優先音が大きく削られることはないからである。「穴埋めの原理」によると、非優先は、優先音が強調された範囲内でしか低減されない。また、優先音の立ち上り時間は数ミリ秒から数十ミリ秒程度の短い時間であり、連続聴効果を考えれば、非優先音を保護する意義はそれほど高くないからである。
[0144]
 図13Dは、選択モードで相対スペクトルだけが選択されたときの、立ち上がりから100ms経過後の波形を示す。vivid信号が「1」である帯域は、図13Bの通常モードのときよりも広がるが、vivid信号が「0」である帯域も十分に存在し、優先音の立ち上がりを強化しつつ、非優先音を劣化させないというvivid信号の役割を果たしている。
[0145]
 絶対スペクトル基準と相対スペクトル基準のそれぞれで適用の有無を選択可能にすることで、無音時、優先音の立ち上がり時などの特定の場合にも、スマートミキシングを最適化することができる。
[0146]
 図14は、実施形態のミキシング装置1を適用したミキシングシステム100の概略図である。ミキシング装置1は、FPGA、PLD(Programmable Logic Device)などのロジックデバイス101で実現可能である。上述した構成のミキシング装置1A~1Cは、演算処理が比較的簡易なので、ロジックデバイス101に内蔵されるメモリ102で十分機能するが、別途、メモリを設けてもよい。
[0147]
 ミキシング装置1に、ユーザ入出力装置2と、表示装置3と、オーディオ信号入力装置4と、スピーカ6が接続されている。ミキシング装置1とスピーカ6の間にアンプ5が挿入されていてもよい。ユーザ入出力装置2は、パーソナルコンピュータ(PC)などの情報処理端末である。ユーザ入出力装置2には、絶対スペクトルの上限閾値F H[i,k]と下限閾値F L[i,k]、相対スペクトルの上限閾値H H[i,k]と下限閾値H L[i,k]などのパラメータを設定入力するボックスが表示されて、ユーザ入力を可能にする。
[0148]
 表示装置3は、液晶、有機エレクトロルミネッセンス等のモニタディスプレイである。表示装置3に、絶対スペクトルFv [i,k]、相対スペクトルHv [i,k]、vivid信号などを表示することで、ミキシングを行うユーザは、入力音のスペクトルと設定パラメータの状態を認識し、調整することができる。
[0149]
 オーディオ信号入力装置4は、たとえばマイク4a、4bであり、優先音となるオーディオ信号と非優先音となるオーディオ信号がミキシング装置1に入力される。ミキシング装置1によってミキシングされた信号は、アンプ5で増幅され、スピーカ6から出力される。
[0150]
 実施形態のミキシング装置1を用いることで、以下の効果を奏することができる。
(1)優先音の明瞭度を上げるという効果をできるだけ保ったまま、非優先音に欠落感(音質の劣化)が生じることを抑制できる。
(2)単純な計算の組み合わせで実現可能なため、ソフトウエアとして実装した場合に計算負荷が軽い。また、FPGAなどのプログラマブルなロジックデバイスへの実装に適している。ソフトウエアとして実装する場合は、図10の制御信号生成フローを含む実施形態のミキシング装置1の各構成要素の機能(平滑処理、ゲイン導出処理、乗算処理、加算処理)を実行するプログラムをユーザ端末等の情報処理装置にインストールしてもよい。
(3)優先音として、スピーチ、ボーカル、歌声などの音声、楽器音など、多種多様の音源に対応可能である。
(4)コンサート会場やレコーディングスタジオにおける業務用ミキシング装置だけではなく、アマチュア用のミキサー、DAW(Digital Audio Workstation)、スマートフォン用のアプリケーション、会議システム等にも応用可能である。
(5)vivid信号は、ミキシング以外にも一つの入力オーディオ信号に対する簡易的なかぶり除去機能ももつ。
(6)優先音の立ち上がりが良好になる。
[0151]
 本発明について、特定の構成例に基づいて説明してきたが、本発明は多様な変形、置換等を含む。たとえば、図3、図5、及び図8において、制御信号に基づくゲイン調整がされた信号の加算処理と、周波数時間変換部16による時間領域信号への変換処理の順序を逆にしてもよい。すなわち、優先的混合の有無に応じてゲイン調整された優先音と非優先音を個別に時間領域信号に変換した後に、加算してもよい。
[0152]
 信号処理部15A~15Cの出力として、必ずしも加算した後の混合信号を出力する必要はなく、優先的混合の有無に応じてゲイン調整がされた優先音と非優先音の時間領域信号を、それぞれ個別に出力してもよい。
[0153]
 信号処理部15A~15Cの出力として、優先的混合の有無に応じてゲイン調整された優先音と非優先音の他に、優先音の原音、非優先音の原音、優先音の原音とゲイン調整後の信号との差分、非優先音の原音とゲイン調整後の信号との差分等を出力してもよい。この場合、信号処理部15からの個別の出力を外部のミキサー(たとえば従来型のミキサー)に入力して、さらなるミキシング操作を行ってもよい。
[0154]
 図14のシステムにおいても同様に、ミキシング装置1の出力は優先的混合の有無に応じてゲイン調整された優先音と非優先音の混合音に限定されない。ゲイン調整された時間領域の優先音信号と非優先信号をアンプに5に入力する前に、他の外部ミキサー等でさらなる処理を行った後にアンプ5に入力してもよい。
[0155]
 この出願は、2018年4月17日に出願された日本国特許出願第2018-078981号に基づき、その優先権を主張するものであり、その全内容は本件出願中に含まれる。

符号の説明

[0156]
1、1A~1C ミキシング装置
11 信号入力部
12 周波数解析部
15、15A~15C 信号処理部
16 周波数時間変換部
17 信号出力部
18 周波数軸変換部
19 ゲイン導出部
21 周波数軸の逆変換部
150、250 制御信号生成部
151、251 時間方向平滑化部
152、252 周波数方向平滑化部
153、253 周波数方向平滑化部
154、254 減算部(または比計算部)

請求の範囲

[請求項1]
 時間周波数平面上の第1信号と第2信号のミキシング装置であって、
 前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号を生成する制御信号生成部と、
 前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出するゲイン導出部と、
を有し、
 前記制御信号は、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値は周波数軸上で一定帯域幅を超えて連続せず、
 前記ミキシング装置は、前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用することを特徴とするミキシング装置。
[請求項2]
 前記制御信号生成部は、
 前記時間周波数平面上の前記第1信号の強度に対して第1の周波数処理を行って前記第1信号の絶対量を表わす第1スペクトルを取得する第1の周波数方向処理部と、
 前記第1スペクトルに対して、第2の周波数処理を行って前記第1スペクトルの局所的な変動を表わす第2スペクトルを取得する第2の周波数方向処理部と、
 前記第1スペクトルと前記第2スペクトルに基づいて前記制御信号を生成する信号生成器と、
を有することを特徴とする請求項1に記載のミキシング装置。
[請求項3]
 前記信号生成器は、前記第1スペクトルと前記第2スペクトルに閾値処理を行い、前記第1スペクトルの第1の閾値処理結果と、前記第2スペクトルの第2の閾値処理結果のいずれか小さい方を前記制御信号として出力することを特徴とする請求項2に記載のミキシング装置。
[請求項4]
 前記信号生成器は、前記第1スペクトルが第1閾値以上のときに前記第1の値をとり第2閾値よりも小さいときに前記第2の値をとる第1制御信号と、前記第2スペクトルが第3閾値以上のときに前記第1の値をとり第4閾値よりも小さいときに前記第2の値をとる第2制御信号を生成し、前記第1制御信号と前記第2制御信号のいずれか小さい方を前記制御信号として出力することを特徴とする請求項3に記載のミキシング装置。
[請求項5]
 前記信号生成器は、前記第1信号と前記第2信号の状態に応じて、前記第1スペクトルと前記第2スペクトルの適用の有無を切り替えることを特徴とする請求項2に記載のミキシング装置。
[請求項6]
 前記信号生成器は、前記第1信号が無音または微弱なときは、前記第2スペクトルだけを用いることを特徴とする請求項5に記載のミキシング装置。
[請求項7]
 ユーザによる前記第1スペクトルの適用と前記第2スペクトルの適用の有無を選択可能にするユーザインタフェース、
をさらに有し、
 前記信号生成器は、前記ユーザインタフェースを介した入力にしたがって、前記第1スペクトルと前記第2スペクトルの適用の有無を実行する、
請求項5に記載のミキシング装置。
[請求項8]
 前記制御信号生成部は、
 前記時間周波数平面上の前記第1信号の強度信号を周波数方向に反復的に反転させて透過させるバンドパスフィルタと、
 前記バンドパスフィルタの出力に基づいて前記制御信号を生成する信号生成器と、
を有することを特徴とする請求項1~7のいずれか1項に記載のミキシング装置。
[請求項9]
 前記制御信号生成部は、線形周波数軸を聴覚ベースの軸に変換する周波数軸変換部、
をさらに有し、前記聴覚ベースの軸で前記制御信号を生成することを特徴とする請求項1~8のいずれか1項に記載のミキシング装置。
[請求項10]
 前記制御信号は、前記第1の値と前記第2の値の間の第3の値をとり、
 前記第3の値に応じて、前記優先的混合の程度が調整されることを特徴とする請求項1~9のいずれか1項に記載のミキシング装置。
[請求項11]
 時間周波数平面上の第1信号と第2信号のミキシング方法であって、
 前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第1の値と、前記第1の値と異なる第2の値をとり、前記第1の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成し、
 前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出し、
 前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する、
ことを特徴とするミキシング方法。
[請求項12]
 時間周波数平面上の第1信号と第2信号のミキシング処理をコンピュータに実行させるミキシングプログラムであって、前記コンピュータに、
 前記第1信号の増幅と前記第2信号の減衰とを含む優先的混合を行うか否かを示す制御信号として、少なくとも第1の値と前記第1の値と異なる第2の値をとり、前記第1の値が周波数軸上で一定帯域幅を超えて連続しない信号を生成する手順と、
 前記制御信号に基づいて、前記第1信号を増幅させる第1ゲインと前記第2信号を減衰させる第2ゲインを導出する手順と、
 前記制御信号が前記第1の値を示すときは、前記第1信号と前記第2信号に前記優先的混合を適用し、前記制御信号が前記第2の値を示すときは、前記第1信号と前記第2信号に単純加算を適用する手順と、
を実行させることを特徴とするミキシングプログラム。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11A]

[ 図 11B]

[ 図 12]

[ 図 13A]

[ 図 13B]

[ 図 13C]

[ 図 13D]

[ 図 14]