処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2021044595 - マスク生成装置、マスク生成方法、および記録媒体

Document

明 細 書

発明の名称 マスク生成装置、マスク生成方法、および記録媒体

技術分野

0001  

背景技術

0002   0003   0004   0005   0006  

先行技術文献

特許文献

0007  

発明の概要

発明が解決しようとする課題

0008   0009   0010  

課題を解決するための手段

0011   0012   0013  

発明の効果

0014  

図面の簡単な説明

0015  

発明を実施するための形態

0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120  

産業上の利用可能性

0121  

符号の説明

0122  

請求の範囲

1   2   3   4   5   6   7   8  

図面

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16  

明 細 書

発明の名称 : マスク生成装置、マスク生成方法、および記録媒体

技術分野

[0001]
 本発明は、マスク生成装置、マスク生成方法、および記録媒体に関し、特に、音イベントが存在する時間を示すイベントマスクを生成するマスク生成装置、マスク生成方法、および記録媒体に関する。

背景技術

[0002]
 音信号から、音声が存在する区間とそれ以外の区間とを判別する関連する技術が存在する。このような関連する技術は、VAD(Voice Activity Detection)と呼ばれている。
[0003]
 特許文献1には、入力された音信号から定常の雑音を除去した後、スペクトルの形状に基づいて、非定常の雑音(突発音)が含まれる区間を検出することが記載されている。
[0004]
 特許文献2には、音信号から変換したスペクトログラムに対し、イベント情報に応じたイベントマスクを用いてマスキング処理を実行することによって、音イベントが存在する時間を特定することが記載されている。ここでのイベントマスクとは、特定の区間(ここでは音イベントが存在する時間)では値1を持ち、それ以外の区間(ここでは音イベントが存在しない時間)では値0を持つ時間の関数である。このイベントマスクをスペクトログラムに適用することによって、特定の区間以外(ここでは音イベントが存在しない時間)におけるスペクトログラムの全周波数成分の強度(パワー)がゼロになる。
[0005]
 特許文献3には、別々の場所で集音された複数の音信号から、それぞれ、音イベントを検出し、検出された音イベントに基づいて、複数の音信号に共通して含まれる音声を抽出することが記載されている。
[0006]
 特許文献1から3に示された関連する技術は、例えば、音声と雑音とを判別して、音声に含まれる雑音を抑制するために利用される。また、関連する技術は、音声認識の精度を向上させるためにも利用される。

先行技術文献

特許文献

[0007]
特許文献1 : 国際公開第2014/027419号
特許文献2 : 特開2017-067813号公報
特許文献3 : 特開2018-189924号公報

発明の概要

発明が解決しようとする課題

[0008]
 特許文献1、2に記載の関連する技術は、検出対象である音(音声または非音声)に対応するスペクトル形状を予め仮定しなければならない。したがって、特許文献1、2に記載の関連する技術は、非定常の音を、音イベントとして検出できない。具体的には、特許文献1、2に記載の関連する技術は、未知のスペクトル形状を有する非音声を、音イベントとして検出することが困難である。
[0009]
 特許文献3に記載の関連する技術は、音圧を判定するために、音信号の時間波形を用いている。そのため、検出対象である音が、ごく一部の周波数でのみ強いパワーを有する未知のスペクトル形状を持つ場合、音信号から十分な音圧が得られず、その結果、音イベントの検出漏れが生じる。
[0010]
 本発明は上記の課題に鑑みてなされたものであり、その目的は、スペクトルの形状が未知の音を、音イベントとして検出できる音信号処理装置等を提供することにある。

課題を解決するための手段

[0011]
 本発明の一態様に係わるマスク生成装置は、スペクトログラムから音圧情報を抽出する抽出手段と、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する二値化手段とを備えている。
[0012]
 本発明の一態様に係わるマスク生成方法は、スペクトログラムから音圧情報を抽出し、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することを含む。
[0013]
 本発明の一態様に係わる一時的でない記録媒体は、スペクトログラムから音圧情報を抽出することと、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することとをコンピュータに実行させるためのプログラムを格納している。

発明の効果

[0014]
 本発明の一態様によれば、スペクトルの形状が未知の音を、音イベントとして検出できる。

図面の簡単な説明

[0015]
[図1] 実施形態1に係わるマスク生成装置の構成を示すブロック図である。
[図2] 実施形態1に係わるマスク生成装置が生成するイベントマスクの一例を示す図である。
[図3] 実施形態1に係わるマスク生成装置が実行するマスク生成処理の流れを示すフローチャートである。
[図4] 実施形態1に係わる音信号処理装置の構成を示すブロック図である。
[図5] 実施形態1に係わる音信号処理装置の周波数変換部が生成するスペクトログラムの一例を示す図である。
[図6] 非線形関数を用いて射影したスペクトログラムの一例を示す図である。
[図7] 実施形態1に係わる音信号処理装置の動作の流れを示すフローチャートである。
[図8] 実施形態1に係わる音信号処理装置の別の動作の流れを示すフローチャートである。
[図9] 実施形態2に係わるマスク生成装置の構成を示すブロック図である。
[図10] 実施形態2に係わるマスク生成装置の動作の流れを示すフローチャートである。
[図11] スペクトログラムからイベントマスクが生成される一連の流れを示す図である。
[図12] 実施形態3に係わる音信号処理装置の構成を示すブロック図である。
[図13] 実施形態3に係わる音信号処理装置の動作の流れを示すフローチャートである。
[図14] 実施形態3に係わる音信号処理装置の別の動作の流れを示すフローチャートである。
[図15] 実施形態4に係わる音信号処理装置の構成を示すブロック図である。
[図16] 実施形態4に係わる音信号処理装置の動作の流れを示すフローチャートである。

発明を実施するための形態

[0016]
 〔実施形態1〕
 図1~図8を参照して、実施形態1について以下で説明する。
[0017]
 (マスク生成装置120)
 図1を参照して、本実施形態1に係わるマスク生成装置120について説明する。図1は、マスク生成装置120の構成を示すブロック図である。図1に示すように、マスク生成装置120は、抽出部21および二値化部22を備えている。
[0018]
 抽出部21は、スペクトログラムから音圧情報を抽出する。抽出部は、抽出手段の一例である。音圧情報は、例えば、音信号に関して測定された、パスカルまたはデジベルの単位で表される強度(パワー)であってもよいし、強度(パワー)に基づく音圧レベルであってもよい。例えば、抽出部21は、1台以上のマイクロフォンが集音した音信号から変換されたスペクトログラムを受信する。あるいは、抽出部21は、あらかじめ録音された音信号のデータをスペクトログラムに変換してもよい。
[0019]
 そして、抽出部21は、スペクトログラムに含まれる周波数の全帯域における強度(パワー)の最大値の時系列(最大値系列と呼ぶ)を音圧情報とする。あるいは、抽出部21は、スペクトログラムに含まれる周波数の全帯域における強度(パワー)の平均値の時系列(平均値系列と呼ぶ)を音圧情報とする。もしくは、抽出部21は、これらの平均値系列および最大値系列の両方を、音圧情報としてもよい。
[0020]
 二値化部22は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。二値化部22は、二値化手段の一例である。具体的には、二値化部22は、音圧情報に含まれる強度あるいは音圧レベルを、それぞれ、所定の閾値を超えるか否かに応じて、1.0または0に二値化する。二値化部22は、後述する音信号処理装置1のマスキング部20(図4)へ、生成したイベントマスクを送信する。
[0021]
 イベントマスクは、スペクトログラム中において、検出対象の音イベントが存在する区間(具体的には時間)とそれ以外の区間(具体的には雑音のみが存在する時間、または無音の時間)とを判別するために用いられる。音イベントとは、検出対象である音(音声あるいは非音声)の発生に伴って観測される音信号である。検出対象の音イベントは、音声(例えば人の声)であってもよいし、非音声(例えば機械の作動音)であってもよい。
[0022]
 図2は、マスク生成装置120が生成するイベントマスクの一例を示す図である。図2に示すイベントマスクは、二値化部22によって二値化された音圧情報から生成される。図2に示すイベントマスクにおいて、横軸は時間であり、縦軸は二値化された強度または音圧レベル(ここでは値1.0または0)が対応する。イベントマスクは、検出対象の音イベントが存在する区間では、値1.0を取り、検出対象の音イベントが存在しない区間では、値0を取る。
[0023]
 本実施形態1では、イベントマスクは、後述する音信号処理装置1がスペクトログラムに対してマスキング処理を実施するために使用される。本実施形態1のマスキング処理では、スペクトログラムに対し、図2に示すイベントマスクが乗算される。これにより、検出対象の音イベントが存在しない区間におけるスペクトログラムの全周波数成分が0になるので、スペクトログラムから、雑音など、検出対象の音イベントとは無関係の音を除去できる。マスキング処理されたスペクトログラムには、検出対象の音イベントである音だけが残る。
[0024]
 以下では、検出対象の音声あるいは非音声を、どちらも検出対象の音と呼ぶ。検出対象の音は、定常または非定常のどちらであってもよい。また、上述したように、検出対象の音は、音声または非音声のどちらであるかを問わない。
[0025]
 (マスク生成処理)
 図3を参照して、本実施形態1に係わるマスク生成装置120の動作について説明する。図3は、マスク生成装置120の各部が実行するマスク生成処理の流れを示すフローチャートである。
[0026]
 図3に示すように、抽出部21は、スペクトログラムから音圧情報を抽出する(S21)。抽出部21は、抽出した音圧情報を二値化部22へ送信する。
[0027]
 二値化部22は、抽出部21から、音圧情報を受信する。二値化部22は、抽出した音圧情報に対し、二値化処理を実行する(S22)。これにより、二値化部22は、音イベントが存在する時間を示すイベントマスクを生成する。具体的には、イベントマスクは、音イベントが存在する時間において値1.0を持ち、音イベントが存在しない時間において値0を持つ時間の関数である。
[0028]
 二値化部22は、生成したイベントマスクを、後述する音信号処理装置1のマスキング部20(図4)へ送信する。以上で、マスク生成装置120の動作は終了する。
[0029]
 (音信号処理装置1)
 図4を参照して、本実施形態1に係わる音信号処理装置1について説明する。図4は、音信号処理装置1の構成を示すブロック図である。図4に示すように、音信号処理装置1は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
[0030]
 周波数変換部10は、音信号およびイベントラベルを受信する。イベントラベルは、音イベントの識別子である。
[0031]
 周波数変換部10は、受信した音信号を周波数変換する。ここでいう周波数変換とは、音信号を、音信号の周波数成分の時間変化を示す表現に変換することである。すなわち、周波数変換部10は、音信号を周波数変換することによって、周波数成分ごとの強度(パワー)の時間変化を示すスペクトログラムを生成する。図5において、一点破線は色の濃度を模式的に表現している。また、図6において、実線およびハッチングにより、図5の一点破線が表現する色よりも濃い色を模式的に表現している。
[0032]
 図5は、周波数変換部10が生成するスペクトログラムの一例を示すグラフである。図5に示すグラフの横軸は時間であり、縦軸は周波数を表す。音信号の強度(パワー)は、色の濃淡と対応する。図5では、音信号の強度(パワー)の大小を一点破線の密度で表現している。ただし、図5に示すスペクトログラムにおいて、強度(パワー)が微弱な領域では、一点破線の表示を省略している。
[0033]
 さらに、周波数変換部10は、非線形関数(例えばシグモイド関数)を用いて、スペクトログラムを射影する。具体的には、周波数変換部10は、周波数ごとの音信号の強度を独立変数xとして非線形関数へ入力し、非線形関数fにより変換された強度f(x)を取得する。非線形関数を用いた変換によって、強い強度はより強くなるが、弱い強度はそれほど強くならない。これにより、射影したスペクトログラムにおいて、元のスペクトログラムよりも、周波数ごとの音信号の強度の強弱が強調される。
[0034]
 図6は、シグモイド関数を用いて射影したスペクトログラムの一例を示すグラフである。ただし、図6に示すスペクトログラムにおいて、強度(パワー)が微弱な領域では、実線およびハッチングの表示を省略している。図6に示すグラフを、図5に示すグラフと比較すると、図6に示すグラフでは、音信号の強度の高い領域の色が濃くなっている。すなわち、図6に示す射影したスペクトログラムにおいて、図5に示すスペクトログラムよりも、音信号の強度の高い領域(ハッチングの部分)が強調されている。以下では、射影したスペクトログラムのことも、単にスペクトログラムと呼ぶ場合がある。
[0035]
 周波数変換部10は、(射影した)スペクトログラムを、音信号とともに受信したイベントラベルとともに、学習部30へ送信する。
[0036]
 学習部30は、周波数変換部10から、イベントラベルおよびスペクトログラムを受信する。学習部30は、スペクトログラムから特徴量を抽出する。例えば、学習部30は、MFCC(Mel-Frequency Cepstrum Coefficients)またはスペクトル包絡等の特徴量を、スペクトログラムから抽出する。
[0037]
 学習部30は、いくつものスペクトログラムから抽出した特徴量をイベントモデルに学習させる。こうすることで、後述する検出部40が、音信号処理装置1に対して入力された1つの入力信号を、学習済みのイベントモデルに入力すると、学習済みのイベントモデルは正しい音イベントの検出結果を出力できる。イベントモデルは、例えばニューラルネットワークである。
[0038]
 音イベントの検出に用いられる上述の入力信号は、時系列のスペクトルである。例えば、入力信号は、音信号を周波数変換して得られるスペクトル(パワースペクトル)を時系列に並べたスペクトログラムである。あるいは、入力信号は、スペクトログラム以外に、他の周波数領域の特徴量であってもよい。音信号を他の周波数領域の特徴量に変換する方法として、FFT(Fast Fourier Transform)、CQT(Constant-Q Transformation)、ウェーブレット変換等を利用できる。ここでいう周波数領域の特徴量とは、音信号を周波数変換することによって得られる、一または複数の周波数の帯域における物理パラメータの時系列のことである。例えば、周波数領域の特徴量として、上述したスペクトログラムのほかに、メル周波数スペクトログラム、CQTスペクトル(対数周波数スペクトログラムとも呼ぶ)を挙げることができる。
[0039]
 あるいは、学習部30は、図示しないマイク等から、音信号の時間波形を取得して、取得した一定期間の時間波形を周波数変換することによって得られるスペクトログラムを、入力信号としてもよい。
[0040]
 イベントモデルの学習が終了した後、学習部30は、イベントラベルと紐付けた学習済みのイベントモデルを、イベントラベルと紐付けて、イベントモデルデータベース50に格納する。
[0041]
 検出部40は、音イベント検出用の入力信号を受信する。検出部40は、イベントモデルデータベース50に格納された学習済みのイベントモデルを用いて、入力信号から音イベントを検出する。
[0042]
 より詳細には、検出部40は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。音イベントの検出結果は、検出された音イベントを示す情報(音イベントの種別を示す情報を含む)と、音イベントが存在する時間を示す情報とを少なくとも含む。検出部40は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを、イベント検出フラグとして、マスキング部20へ出力する。
[0043]
 マスキング部20は、検出部40から、イベント検出フラグを受信する。またマスキング部20は、検出対象の音イベントに応じたイベントマスクを、マスク生成装置120から受信する。前記実施形態1において説明したように、イベントマスクは、音イベントが存在する時間において値1.0を持ち、音イベントが存在しない時間において値0を持つ時間の関数である。
[0044]
 マスキング部20は、受信したイベントマスクを用いて、音イベントの検出結果の正誤を判別する。一例では、マスキング部20は、音イベントが検出された時間のみで値1.0を持ち、それ以外の時間で値0を持つ時間の関数に対し、イベントマスクを適用する。
[0045]
 音イベントが検出された時間において、イベントマスクが値1.0を持つ場合、マスキング部20は、値1.0を出力する。この場合、マスキング部20は、音イベントの検出結果が正しいと判定し、音イベントの検出結果を出力する。一方、音イベントが検出された時間において、イベントマスクが値1.0を持つ場合、マスキング部20は、値0を出力する。この場合、マスキング部20は、音イベントの検出結果が誤りであると判定し、音イベントの検出結果を出力しない。言い換えれば、本実施形態1において、マスキング部20は、イベントマスクを用いて、音イベントの検出結果をマスキングする。
[0046]
 (モデル学習処理)
 図7を参照して、本実施形態1に係わる音信号処理装置1の動作について説明する。図7は、音信号処理装置1の各部が実行する処理の流れを示すシーケンス図である。
[0047]
 図7に示すように、まず音信号処理装置1の周波数変換部10は、音信号およびイベントラベルを受信する。音信号およびイベントラベルは、識別子によって互いに対応付けられている。周波数変換部10は、受信した音信号を周波数変換する。さらに、周波数変換部10は、生成したスペクトログラムにおいてパワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する(S11)。
[0048]
 その後、周波数変換部10は、(射影した)スペクトログラムを、イベントラベルとともに、学習部30へ送信する。
[0049]
 学習部30は、周波数変換部10から、スペクトログラムおよびイベントラベルを受信する。学習部30は、受信したスペクトログラムを用いて、イベントモデル(例えばニューラルネットワーク)を学習させる(S12)。
[0050]
 その後、学習部30は、学習済みのイベントモデルを、イベントラベルと紐付けて、イベントモデルデータベース50へ格納する(S13)。
[0051]
 以上で、音信号処理装置1の動作は終了する。
[0052]
 (イベント検出処理)
 図8を参照して、本実施形態1に係わる音信号処理装置1の別の動作について説明する。図8は、音信号処理装置1の各部が実行するイベント検出処理の流れを示すフローチャートである。
[0053]
 図8に示すように、まず音信号処理装置1の検出部40は、イベント検出用の入力信号を受信する。検出部40は、イベントモデルデータベース50に格納された学習済みのイベントモデルを用いて、入力信号から音イベントを検出する(S111)。
[0054]
 例えば、入力信号は、音信号を周波数領域の特徴量に変換して得られるスペクトルを時系列に並べたスペクトログラムである。検出部40は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。検出部40は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを、イベント検出フラグとして、マスキング部20へ出力する。
[0055]
 マスキング部20は、検出部40から、イベント検出フラグを受信する。またマスキング部20は、検出対象の音イベントを検出するためのイベントマスクを、マスク生成装置120の二値化部22(図1)から受信する。マスキング部20は、受信したイベントマスクを用いて、音イベントの検出結果の正誤を判別する(S112)。
[0056]
 音イベントが検出された時間が、イベントマスクにおける値1.0の区間に含まれる場合のみ、マスキング部20は、音イベントの検出結果を出力する(S113)。
[0057]
 以上で、音信号処理装置1の動作は終了する。
[0058]
 (本実施形態の効果)
 本実施形態の構成によれば、マスク生成装置120の抽出部21は、スペクトログラムから音圧情報を抽出する。二値化部22は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。このように生成されたイベントマスクを用いることにより、スペクトル形状が未知の場合であっても、音イベントを検出できる。
[0059]
 また本実施形態の構成によれば、学習済みのイベントモデルから出力された音イベントの検出結果に対して、イベントマスクを適用することで、音圧が弱い雑音部分で誤検出された音イベントの検出結果が除去される。そのため、音イベントの誤検出を防ぐことができる。
[0060]
 〔実施形態2〕
 図9~図14を用いて、実施形態2について説明する。
[0061]
 (マスク生成装置220)
 図9は、本実施形態2に係わるマスク生成装置220の構成を示すブロック図である。図9に示すように、マスク生成装置220は、抽出部221および二値化部222を備えている。ここで二値化部222は、前処理部2221、統合部2222、および平滑化部2223を備えている。
[0062]
 抽出部221は、スペクトログラムから音圧情報を抽出する。抽出部は、抽出手段の一例である。例えば、抽出部221は、1台以上のマイクロフォンが集音した音信号を受信する。あるいは、抽出部221は、あらかじめ録音された音信号のデータを周波数変換することによって、スペクトログラムを生成してもよい。抽出部221は、抽出した音圧情報を二値化部222へ送信する。
[0063]
 二値化部222は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。二値化部222は、二値化手段の一例である。二値化部222は、前記実施形態1において説明した音信号処理装置1の学習部30(図4)へ、生成したイベントマスクを送信する。
[0064]
 (マスク生成処理)
 図10および図11を参照して、二値化部222の動作を説明する。図10は、二値化部222の各部が実行する処理の流れを示すフローチャートである。図11は、スペクトログラムからイベントマスクが生成される一連の流れを示す図である。図11において、音圧情報P1、P2には、0以上の整数の連続する番号(0、1)が、あらかじめ割り当てられている。
[0065]
 図10に示すように、フローの最初に、変数nに0が代入される(S221)。変数nは、抽出部221が抽出した音圧情報の番号と対応する。
[0066]
 変数nがNより小さい場合(S222でYes)、フローはステップS223へ進む。変数nがN以上である場合(S222でNo)、フローはステップS225へ進む。N(>1)は音圧情報の総数と対応する。
[0067]
 抽出部221は、スペクトログラムから、番号nに対応する1つの音圧情報を抽出する(S223)。図11に示す例では、抽出部221は、スペクトログラムから、2つの音圧情報P21、P22のうち、番号nに対応する一つを抽出する。
[0068]
 2つの音圧情報P21、P22は、それぞれ、スペクトログラムの最大値系列および平均値系列である。最大値系列とは、スペクトログラムに含まれる強度(パワー)の最大値の時系列である。平均値系列とは、スペクトログラムに含まれる強度(パワー)の平均値の時系列である。
[0069]
 図11において、音圧情報P21、P22を表す各グラフの横軸は時間であり、縦軸は強度(パワー)である。
[0070]
 最大値系列の音圧情報は、突発音のような、狭い帯域で音圧が高くなる音イベントを検出するために有効であり、平均値系列の音圧情報は、広い帯域で音圧が高くなる音イベントを検出するために有効である。あるいは、抽出部221は、スペクトログラムから、最大値系列および平均値系列を少なくとも含む3つ以上の音圧情報を抽出してもよい。
[0071]
 抽出部221は、番号nに対応する番号を割り当てられた音圧情報を、二値化部222の前処理部2221へ送信する。
[0072]
 前処理部2221は、抽出部221から受信した音圧情報を二値化する。具体的には、前処理部2221は、番号nに対応する音圧情報において、閾値以上のパワーを値1.0に、閾値を下回るパワーを0に変換する。閾値は、例えば、0から無限(あるいは予め定めた有限値)までの周波数の範囲において音信号のパワーを積分した値の1/m(m>1)に定められる。
[0073]
 図11に示す例では、二値化された2つの音圧情報P31、P32が示されている。2つの音圧情報P31、P32は、それぞれ、音圧情報P21、P22が二値化されたものである。
[0074]
 その後、変数nを1加算し(S224)、フローはステップS222へ戻る。変数nがNよりも小さい間、上述したステップS222からステップS224までの処理が繰り返される。変数nがN以上になったとき(S222でNo)、前処理部2221は、N個の二値化した音圧情報を、統合部2222へ送信する。そして、フローはステップS225へ進む。
[0075]
 統合部2222は、前処理部2221から、N個の二値化した音圧情報を受信する。統合部2222は、N個の二値化した音圧情報を統合する(S225)。
[0076]
 具体的には、統合部2222は、ある時刻において、N個の二値化した音圧情報のうち、少なくとも1つの値が1.0であるならば、当該時刻における統合した音圧情報の値を1.0にする一方、全ての値が0であるならば、当該時刻における統合した音圧情報の値も0にする。
[0077]
 このようにして、統合部2222は、同一の時刻におけるN個の二値化した音圧情報の値(1.0または0)に基づいて、一つの統合した音圧情報を生成する。図11に示す例では、2つの二値化した音圧情報P31、P32が統合されることによって、一つの音圧情報P4が生成されている。統合部2222は、統合した音圧情報を、平滑化部2223へ送信する。
[0078]
 平滑化部2223は、統合部2222から、統合した音圧情報を受信する。平滑化部2223は、統合した音圧情報を平滑化する(S226)。具体的には、平滑化部2223は、音圧情報を所定の範囲の時間ごとに分割する。一つの範囲の時間において、値1.0の割合(あるいは、値1.0と値0の比率)が一定以上である場合、平滑化部2223は、その範囲の時間における強度(パワー)あるいは音圧レベルを全て1.0にする。逆に、所定の範囲の時間において、値1.0の割合(あるいは、値1.0と値0の比率)が一定以上でない場合、平滑化部2223は、その範囲の時間における強度(パワー)あるいは音圧レベルを全て0にする。
[0079]
 平滑化部2223は、このように平滑化した音圧情報を、イベントマスクとして、音信号処理装置1のマスキング部20(図4)へ出力する。以上で、マスク生成処理は終了する。
[0080]
 (本実施形態の効果)
 本実施形態の構成によれば、抽出部221は、スペクトログラムから複数の音圧情報を抽出する。複数の音圧情報を用いることにより、音イベントの検出漏れを防ぐ効果が期待できる。二値化部222は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。
[0081]
 また、前記実施形態1において説明したように、音信号処理装置1において、学習済みのイベントモデルから出力された音イベントの検出結果に対して、このイベントマスクを適用することで、誤検出された音イベントの検出結果が除去される。そのため、音イベントの誤検出を防ぐことができる。
[0082]
 〔実施形態3〕
 図12~図14を参照して、実施形態3について説明する。
[0083]
 (音信号処理装置2)
 図12を参照して、本実施形態3に係わる音信号処理装置2について説明する。図12は、音信号処理装置2の構成を示すブロック図である。図12に示すように、音信号処理装置2は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
[0084]
 本実施形態3に係わる音信号処理装置2の構成は、前記実施形態1に係わる音信号処理装置1の構成と同じである。しかしながら、本実施形態3では、音信号処理装置2の動作の一部は、音信号処理装置2と異なる。以下で詳細に説明するように、本実施形態3では、イベントモデルの学習の前に、音信号から変換されたスペクトログラムに対して、マスキング処理が実行される。
[0085]
 (モデル学習処理)
 図13を参照して、本実施形態3に係わる音信号処理装置2の動作について説明する。図13は、音信号処理装置2の各部が実行する処理の流れを示すフローチャートである。
[0086]
 図13に示すように、まず音信号処理装置2の周波数変換部10は、音信号およびイベントラベルを受信する。
[0087]
 周波数変換部10は、受信した音信号を周波数変換する。さらに、周波数変換部10は、生成したスペクトログラムにおいてパワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する(S311)。
[0088]
 その後、周波数変換部10は、(射影した)スペクトログラムを、イベントラベルとともに、マスキング部20へ送信する。
[0089]
 マスキング部20は、周波数変換部10から、スペクトログラムおよびイベントラベルを受信する。またマスキング部20は、マスク生成装置120の二値化部22(図1)またはマスク生成装置220の二値化部222(図9)から、検出対象の音イベントを検出するためのイベントマスクを受信する。マスキング部20は、受信したイベントマスクを用いて、スペクトログラムに対し、マスキング処理を実施する(S312)。
[0090]
 具体的には、マスキング部20は、スペクトログラムに対し、図2に例示するイベントマスクを乗算する。これにより、マスキング部20は、イベントマスクの値が1.0である時間におけるスペクトログラムの全周波数成分の強度(パワー)をそのままとし、イベントマスクの値が0である時間におけるスペクトログラムの全周波数成分の強度(パワー)を0に変換する。マスキング部20は、このようにしてマスキング処理されたスペクトログラムを、イベントラベルとともに学習部30へ送信する。
[0091]
 学習部30は、マスキング部20から、マスキング処理されたスペクトログラムおよびイベントラベルを受信する。学習部30は、マスキング処理されたスペクトログラムから、特徴量を抽出する。
[0092]
 1つの入力信号を入力されると、イベントモデルが正しい音イベントの検出結果を出力できるように、学習部30はいくつもの学習用の音信号に基づくスペクトログラムの特徴量をイベントモデルに学習させる(S313)。
[0093]
 イベントモデルの学習が終了した後、学習部30は、イベントラベルと紐付けた学習済みのイベントモデルを、イベントモデルデータベース50に格納する(S314)。
[0094]
 以上で、音信号処理装置2の動作は終了する。
[0095]
 (イベント検出処理)
 図14を参照して、本実施形態3に係わる音信号処理装置2の別の動作について説明する。図14は、音信号処理装置2の各部が実行するイベント検出処理の流れを示すフローチャートである。
[0096]
 図14に示すように、まず音信号処理装置2のマスキング部20は、イベント検出用の入力信号を受信する。ここでは、入力信号は、音信号を周波数変換したスペクトログラムである。その後、マスキング部20は、検出対象の音イベントを検出するためのイベントマスクを用いて、入力信号(すなわちスペクトログラム)に対し、マスキング処理を実行する(S411)。
[0097]
 具体的には、マスキング部20は、入力信号において、対応するイベントマスクの値が1.0である時間における入力信号のパワーをそのままとし、対応するイベントマスクの値が0である時間における入力信号のパワーを0に変換する。マスキング部20は、マスキング処理された入力信号を、検出部40へ送信する。
[0098]
 検出部40は、マスキング部20から、マスキング処理された入力信号を受信する。検出部40は、イベントモデルデータベース50に格納された学習済みのイベントモデルを用いて、マスキング処理された入力信号から音イベントを検出する(S412)。
[0099]
 より詳細には、検出部40は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。音イベントの検出結果は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを少なくとも含む。
[0100]
 その後、検出部40は、音イベントの検出結果を出力する(S413)。
[0101]
 以上で、音信号処理装置2の動作は終了する。
[0102]
 (本実施形態の効果)
 本実施形態の構成によれば、マスキング部20は、入力信号に対し、マスキング処理を実行する。検出部40は、マスキング処理された入力信号から音イベントを検出する。その後、検出部40は、音イベントの検出結果を出力する。したがって、音信号処理装置2は、学習済みのイベントモデルを用いて、スペクトルの形状が未知の音を、音イベントとして検出できる。
[0103]
 〔実施形態4〕
 図15~図16を参照して、実施形態4について説明する。本実施形態4では、イベントマスクを利用して、イベントラベルに対し、音イベントが存在する時間を示す情報を付与する構成を説明する。前記実施形態1、3では、イベントマスクは、後述する音信号処理装置1がスペクトログラムに対してマスキング処理を実施するために使用された。一方、本実施形態4では、特定の性質を有するイベントラベル(後述する弱ラベルである)に対し、イベントマスクが適用される。
[0104]
 (音信号処理装置3)
 図15を参照して、本実施形態4に係わる音信号処理装置3について説明する。図15は、音信号処理装置3の構成を示すブロック図である。図15に示すように、音信号処理装置3は、周波数変換部10、マスキング部20、学習部30、検出部40、およびイベントモデルデータベース50を備えている。
[0105]
 本実施形態4に係わる音信号処理装置3の構成は、前記実施形態3に係わる音信号処理装置2の構成と同じである。しかしながら、本実施形態4に係わる音信号処理装置3の動作は、部分的に、音信号処理装置2と異なる。以下でそれを詳細に説明する。
[0106]
 (モデル学習処理)
 図16を参照して、本実施形態4に係わる音信号処理装置3の動作について説明する。図16は、音信号処理装置3の各部が実行する処理の流れを示すシーケンス図である。本実施形態4に係わる音信号処理装置3の動作は、図16のステップS3312に示す処理についてのみ、前記実施形態3に係わる音信号処理装置2の動作と異なる。
[0107]
 まず音信号処理装置3の周波数変換部10は、音信号およびイベントラベルを受信する。
[0108]
 図16に示すように、周波数変換部10は、受信した音信号を周波数変換する(S311)。さらに、周波数変換部10は、生成したスペクトログラムにおいて、パワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する。以下の説明では、スペクトログラムとは射影したスペクトログラムのことである。
[0109]
 その後、周波数変換部10は、(射影した)スペクトログラムを、イベントラベルとともに、マスキング部20へ送信する。本実施形態4に係わるイベントラベルは、音イベントを示す情報のみを含んでおり、音イベントが存在する時間を特定する情報は含まれていない。
[0110]
 実施形態4に係わる初期のイベントラベルには、検出対象の音イベントが常時存在することを示す時間情報が付与されている。例えば、イベントラベルの時間情報は、音イベントの存在の有無の時間変化を表す。本実施形態4では、このような初期のイベントラベルを、弱ラベルと定義する。例えば、弱ラベルの時間情報は、全時間において値1.0のみを有する。
[0111]
 マスキング部20は、周波数変換部10から、スペクトログラムおよび弱ラベルを受信する。また、マスキング部20は、マスク生成装置120の二値化部22(図1)またはマスク生成装置220の二値化部222(図9)から、検出対象の音イベントに応じたイベントマスクを受信する。前記実施形態1において説明したように、イベントマスクは、音イベントが存在する時間において値1.0を持ち、音イベントが存在しない時間において値0を持つ時間の関数である。
[0112]
 マスキング部20は、イベントマスクを用いて、周波数変換部10から受信した弱ラベルの持つ時間情報に対し、マスキング処理を実行する(S3312)。
[0113]
 具体的には、マスキング部20は、弱ラベルの持つ時間情報に対し、図2に例示するイベントマスクを乗算する。弱ラベルの持つ時間情報に対し、イベントマスクを乗算することにより、弱ラベルに対し、検出対象の音イベントが存在する時間を示す時間情報が与えられる。マスキング処理後、マスキング部20は、周波数変換部10から受信したスペクトログラムを、マスキング処理後の弱ラベル(図15では、マスキング処理されたイベントラベルと記載)とともに、学習部30へ送信する。
[0114]
 学習部30は、マスキング部20から、スペクトログラムおよびマスキング処理されたイベントラベルを受信する。学習部30は、スペクトログラムの特徴量を生成する。1つの入力信号を入力されると、イベントモデルが正しい音イベントの検出結果を出力できるように、学習部30はいくつもの学習用の音信号に基づくスペクトログラムから生成した特徴量を、マスキング処理されたイベントラベルが持つ時間情報とともに、イベントモデルに学習させる(S313)。
[0115]
 イベントモデルの学習が終了した後、学習部30は、マスキング処理されたイベントラベルと紐付けた学習済みのイベントモデルを、イベントモデルデータベース50に格納する(S314)。
[0116]
 以上で、音信号処理装置3の動作は終了する。このように、本実施形態4に係わる音信号処理装置3は、スペクトログラムとともに、検出対象の音イベントが存在する時間を示す時間情報も用いて、イベントモデルに学習させることにより、効率的に、学習済みのイベントモデルを生成することができる。
[0117]
 (イベント検出処理)
 本実施形態4に係わるイベント検出処理では、本実施形態1~3のようには、マスキング処理が行われない。本実施形態4に係わるイベント検出処理では、検出部40は、学習済みのイベントモデルを用いて、音イベントを検出する。以上で、音信号処理装置3の動作は終了する。
[0118]
 (本実施形態の効果)
 本実施形態の構成によれば、マスキング部20は、検出対象の音イベントが存在する時間を示す時間情報を持たない弱ラベルに対して、イベントマスクを適用する。これにより、弱ラベルに対し、音イベントが存在する時間を示す時間情報が付与される。
[0119]
 また、検出部40は、学習済みイベントモデルおよび時間情報を用いて、入力信号から音イベントを検出する。その後、検出部40は、音イベントの検出結果を出力する。音信号処理装置3は、学習済みのイベントモデルを用いて、スペクトルの形状が未知の音を、音イベントとして検出できる。
[0120]
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、上述した実施形態は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

産業上の利用可能性

[0121]
 本発明は、屋内や街中で人々の行動をモニタリングしたり、機械が正常に動作しているか判定したりするために利用できる。

符号の説明

[0122]
   1 音信号処理装置
   2 音信号処理装置
   3 音信号処理装置
 120 マスク生成装置
  21 抽出部
  22 二値化部
 220 マスク生成装置
 221 抽出部
 222 二値化部
 2221 前処理部
 2222 統合部
 2223 平滑化部

請求の範囲

[請求項1]
 スペクトログラムから音圧情報を抽出する抽出手段と、
 抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する二値化手段と
を備えたマスク生成装置。
[請求項2]
 前記抽出手段は、前記スペクトログラムから、前記音圧情報として、前記スペクトログラムの最大値系列および前記スペクトログラムの平均値系列を少なくとも抽出する
 ことをいとする請求項1に記載のマスク生成装置。
[請求項3]
 前記抽出手段は、
  音信号を二値化する前処理手段と、
  二値化した前記音圧情報を統合する統合手段と、
  統合した前記音圧情報を平滑化する平滑化手段とを含む
 ことを特徴とする請求項1または2に記載のマスク生成装置。
[請求項4]
 スペクトログラムから音圧情報を抽出し、
 抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成すること
を含むマスク生成方法。
[請求項5]
 前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
ことを特徴とする請求項4に記載のマスク生成方法。
[請求項6]
 スペクトログラムから音圧情報を抽出することと、
 抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することと
をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
[請求項7]
 前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
ことを特徴とする請求項6に記載の記録媒体。
[請求項8]
 請求項1から3のいずれか1項に記載のマスク生成装置が生成した前記イベントマスクを用いて、入力信号から音イベントを検出することを特徴とする音信号処理装置。

図面

[ 図 1]

[ 図 2]

[ 図 3]

[ 図 4]

[ 図 5]

[ 図 6]

[ 図 7]

[ 図 8]

[ 図 9]

[ 図 10]

[ 図 11]

[ 図 12]

[ 図 13]

[ 図 14]

[ 図 15]

[ 図 16]