Processing

Please wait...

Settings

Settings

1. WO2000041164 - SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS

Publication Number WO/2000/041164
Publication Date 13.07.2000
International Application No. PCT/US1999/031308
International Filing Date 29.12.1999
Chapter 2 Demand Filed 27.07.2000
IPC
G10L 15/04 2006.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
04Segmentation; Word boundary detection
CPC
G10L 15/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
04Segmentation; Word boundary detection
Applicants
  • QUALCOMM INCORPORATED [US/US]; 5775 Morehouse Drive San Diego, CA 92121-1714, US
Inventors
  • BI, Ning; US
  • CHANG, Chienchung; US
Agents
  • OGROD, Gregory, D. ; Qualcomm Incorporated 5775 Morehouse Drive San Diego, CA 92121-1714, US
Priority Data
09/225,89104.01.1999US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS
(FR) SYSTEME ET PROCEDE POUR LA SEGMENTATION ET LA RECONNAISSANCE DE SIGNAUX VOCAUX
Abstract
(EN)
A system and method for forming a segmented speech signal from an input speech signal having a plurality of frames. The input speech signal is converted from a time domain signal to a frequency domain signal having a plurality of speech frames, wherein each speech frame in the frequency domain signal is represented by at least one spectral value associated with the speech frame. A spectral difference value is then determined for each pair of adjacent frames in the frequency domain signal, wherein the spectral difference value for each pair of adjacent frames is representative of a differnece between the at least one spectral value associated with each frame in the pair of adjacent frames. An initial cluster boundary is set between each pair of adjacent frames in the frequency domain signal, and a variance value is assigned to each cluster in the frequency domain signal, wherein the variance value for each cluster is equal to one of the determined spectral difference values. Next, a plurality of cluster merge parameters is calculated, wherein each of the cluster merge parameters is associated with a pair of adjacent clusters in the frequency domain signal. A minimum cluster merge parameter is selected from the plurality of cluster merge parameters. A merged cluster is then formed by canceling a cluster boundary between the clusters associated with the minimum merge parameter and assigning a merged variance value to the merged cluster, wherein the merged variance value is representative of the variance values assigned to the clusters associated with the minimum merge parameter. The process is repeated in order to form a plurality of merged clusters, and the segmented speech signal is formed in accordance with the plurality of merged clusters.
(FR)
L'invention concerne un système et un procédé pour la formation d'un signal vocal segmenté à partir d'un signal vocal d'entrée ayant une pluralité de trames. Le signal vocal d'entrée est transformé, à partir d'un signal de dimension temporelle, en un signal de domaine fréquentiel ayant une pluralité de trames vocales, chaque trame vocale dans le signal de domaine fréquentiel étant représentée par au moins une valeur spectrale associée à la trame vocale. Une valeur de différence spectrale est ensuite déterminée pour chaque paire de trames adjacentes dans le signal de domaine fréquentiel, la valeur de différence spectrale pour chaque paire de trames adjacentes étant représentative d'une différence entre au moins une valeur spectrale associée à chaque trame dans la paire de trames adjacentes. Une limite de grappe initiale est établie entre chaque paire de trames adjacentes dans le signal de domaine fréquentiel, et une variance est assignée à chaque grappe dans le signal de domaine fréquentiel, la variance pour chaque grappe étant égale à l'une des valeurs de différence spectrale déterminées. Une pluralité de paramètres de fusion de grappes sont ensuite calculés, chacun de ces paramètres étant associé à une paire de grappes adjacentes dans le signal de domaine fréquentiel. Un paramètre de fusion de grappes minimum est sélectionné à partir d'une pluralité de tels paramètres. Une grappe fusionnée est alors formée en supprimant une limite de grappe entre les grappes associées au paramètre de fusion minimum et en assignant une variance fusionnée à la grappe fusionnée, la variance fusionnée étant représentative des variances assignées aux grappes associées au paramètre de fusion minimum. Le processus est répété en vue de former une pluralité de grappes fusionnées, et le signal vocal segmenté est formé en conformité avec la pluralité de grappes fusionnées.
Latest bibliographic data on file with the International Bureau