WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2001086633) VOICE ACTIVITY DETECTION AND END-POINT DETECTION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2001/086633    International Application No.:    PCT/IT2001/000221
Publication Date: 15.11.2001 International Filing Date: 08.05.2001
Chapter 2 Demand Filed:    14.09.2001    
IPC:
G10L 25/78 (2013.01), G10L 25/87 (2013.01), G10L 25/30 (2013.01)
Applicants: MULTIMEDIA TECHNOLOGIES INSTITUTE - MTI S.R.L. [IT/IT]; Via G. Leopardi, 41 I-95127 Catania (IT) (For All Designated States Except US).
BERITELLI, Francesco [IT/IT]; (IT) (For US Only)
Inventors: BERITELLI, Francesco; (IT)
Agent: IANNONE, Carlo, Luigi; Ing. Barzanò & Zanardo Roma S.p.A. Via Piemonte, 26 I-00187 Roma (IT)
Priority Data:
RM2000A000248 10.05.2000 IT
Title (EN) VOICE ACTIVITY DETECTION AND END-POINT DETECTION
(FR) DETECTION D'ACTIVITE VOCALE ET D'EXTREMITE DE MOT
Abstract: front page image
(EN)This invention provides a method for detection of voice activity or VAD method in a voice signal, particularly in telephonic applications, comprising: a first step aimed at acquiring the voice signal (1) divided in segments or frames having a time duration d, a second step aimed at computing, for each frame, at least three of the following five parameters: the energy differential over the whole band $g(D)E¿f?, the energy differential over the band 0-1kHz, $g(D)E¿l?, the zero crossing rate differential, $g(D)ZCR, the second cepstral coefficient, c¿2?, and the fifth cepstral coefficient, c¿5?, a third step in which a neural network process is carried out in order to provide, based upon at least three of said five parameters, for each frame, an output value Y in the range defined by a minimum value Y¿min? and by a maximum value Y¿max?, being Y¿min?< Y¿max?. The invention also provides a VAD apparatus to perform said VAD method, a method for segmentation of isolated words or EPD method, including the steps of said VAD method, as well as an EPD apparatus related thereto.
(FR)L'invention concerne un procédé de détection d'activité vocale dans un signal vocal, en particulier pour les applications téléphoniques, qui comprend les étapes suivantes: acquisition du signal vocal (1) divisé en segments ou trames de durée d; calcul pour chaque trame d'au moins trois des cinq paramètres suivants: différence d'énergie sur toute la bande $g(D)E¿f?, différence d'énergie sur la bande $g(D)E¿l? comprise entre 0 et 1 kHz, différence de taux de passage par zéro $g(D)ZCR, second coefficient cepstral c¿2? et cinquième coefficient cepstral c¿5?; processus de réseau neuronal en vue de fournir, pour chaque trame et sur la base d'au moins trois des cinq paramètres, une valeur de sortie Y dans la gamme définie par une valeur minimum Y¿min? et par une valeur maximum Y¿max?, avec Y¿min? <Y¿max?. L'invention concerne également un appareil de détection d'activité vocale pour ce procédé, un procédé de segmentation de mots isolés ou procédé de détection d'extrémité de mot, comprenant les étapes du procédé de détection d'activité vocale, et un appareil correspondant pour ce procédé de détection d'extrémité de mot.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW.
African Regional Intellectual Property Organization (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: Italian (IT)