WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2012105385) SOUND SEGMENT CLASSIFICATION DEVICE, SOUND SEGMENT CLASSIFICATION METHOD, AND SOUND SEGMENT CLASSIFICATION PROGRAM
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2012/105385    International Application No.:    PCT/JP2012/051553
Publication Date: 09.08.2012 International Filing Date: 25.01.2012
IPC:
G10L 25/21 (2013.01), G10L 21/0216 (2013.01)
Applicants: NEC CORPORATION [JP/JP]; 7-1, Shiba 5-chome, Minato-ku, Tokyo 1088001 (JP) (For All Designated States Except US).
ONISHI, Yoshifumi [JP/JP]; (JP) (For US Only)
Inventors: ONISHI, Yoshifumi; (JP)
Agent: MATSUMOTO, Masao; 2910, West Park Tower Ikebukuro, 21-13, Nishi-Ikebukuro 3-chome, Toshima-ku, Tokyo 1710021 (JP)
Priority Data:
2011-019812 01.02.2011 JP
2011-137555 21.06.2011 JP
Title (EN) SOUND SEGMENT CLASSIFICATION DEVICE, SOUND SEGMENT CLASSIFICATION METHOD, AND SOUND SEGMENT CLASSIFICATION PROGRAM
(FR) DISPOSITIF DE CLASSEMENT DE SEGMENTS SONORES, PROCÉDÉ DE CLASSEMENT DE SEGMENTS SONORES ET PROGRAMME DE CLASSEMENT DE SEGMENTS SONORES
(JA) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Abstract: front page image
(EN)A sound segment classification device that appropriately classifies sound segments of an observation signal by sound source, when the volume from a sound source fluctuates, when the number of sound sources is unknown, and even when a mixture of microphones of different types is used. The sound segment classification device (100) comprises: a vector calculation means (101) that calculates, from a time series of the power spectrum for sound signals collected by a plurality of microphones, a multidimensional vector series which is a vector series of the power spectrum having the same number of dimensions as there are microphones; a difference calculation means (104) that calculates, for each point in time in the multidimensional vector series that is divided into lengths of any time period, the difference vector between a point in time and the immediately preceding point in time; a sound source direction estimation means (105) that estimates as the sound source direction the main component of the difference vector found in a state where both non-orthogonality and exceeding spatial dimensions are permitted; and a sound segment determination means (106) that determines whether a sound source direction is a sound segment or a silence segment, for each sound source direction found using the sound source direction estimation means, using a prescribed sound characteristics index indicating the sound segment characteristics of sound signals input for each point in time.
(FR)L'invention concerne un dispositif de classement de segments sonores qui classe de manière appropriée des segments sonores d'un signal d'observation par source sonore, lorsque le volume d'une source sonore varie, lorsque le nombre de sources sonores est inconnu et même lorsqu'un mélange de microphones de types différents est utilisé. Le dispositif de classement de segments sonores (100) comprend un moyen de calcul de vecteur (101) qui calcule, à partir d'une série temporelle du spectre de puissance de signaux sonores captés par plusieurs microphones, une série vectorielle multidimensionnelle qui est une série vectorielle du spectre de puissance présentant autant de dimensions qu'il y a de microphones; un moyen de calcul de différence (104) qui calcule, pour chaque moment dans la série vectorielle multidimensionnelle qui est divisée en longueurs de laps de temps quelconque, le vecteur de différence entre un moment donné et le moment immédiatement précédent; un moyen d'estimation comme direction de source sonore (105) qui estime comme direction de source sonore la composante principale du vecteur de différence déterminé lorsque la non orthogonalité et des dimensions spatiales excessives sont autorisées; et un moyen de détermination de segment sonore (106) qui détermine si une direction de source sonore est un segment sonore ou un segment de silence, pour chaque direction de source sonore déterminée à l'aide du moyen d'estimation comme direction de source sonore, au moyen d'un indice de caractéristiques sonores prescrit indiquant les caractéristiques de segment sonore de signaux sonores pour chaque moment.
(JA) 音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間をその音源ごとへ適切に分類する。 有音区間分類装置100が、複数のマイクで集音した音声信号のパワースペクトル時系列から、マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段101と、任意の時間長に区切った多次元ベクトル系列の各時刻について、当該時刻とその直前の時刻との差分ベクトルを算出する差分算出手段104と、非直交を許容し、かつ空間次元を超えることを許容した状態で求めた差分ベクトルの主成分を、音源方向として推定する音源方向推定手段105と、各時刻ごとに入力された音声信号の有音区間らしさを示す所定の有音性指標を用いて、音源方向推定手段で求めた音源方向ごとに、当該音源方向が有音区間であるか無音区間であるかを判別する有音区間判定手段106とを備える。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: Japanese (JA)
Filing Language: Japanese (JA)