Processing

Please wait...

Settings

Settings

Goto Application

1. WO2002025636 - DISTRIBUTED SPEECH RECOGNITION USING DYNAMICALLY DETERMINED FEATURE VECTOR CODEBOOK SIZE

Publication Number WO/2002/025636
Publication Date 28.03.2002
International Application No. PCT/EP2001/010720
International Filing Date 14.09.2001
IPC
G10L 15/02 2006.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
G10L 15/26 2006.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
26Speech to text systems
G10L 15/28 2006.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
28Constructional details of speech recognition systems
CPC
G10L 15/02
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
G10L 15/30
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
28Constructional details of speech recognition systems
30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
G10L 2015/228
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
226using non-speech characteristics
228of application context
Applicants
  • KONINKLIJKE PHILIPS ELECTRONICS N.V. [NL]/[NL]
Inventors
  • YANG, Yin-Pin
Agents
  • GÖSSMANN, Klemens
Priority Data
09/668,54125.09.2000US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) DISTRIBUTED SPEECH RECOGNITION USING DYNAMICALLY DETERMINED FEATURE VECTOR CODEBOOK SIZE
(FR) RECONNAISSANCE DE PAROLE DISTRIBUEE METTANT EN OEUVRE DES TAILLES DE LIVRE DE CODES DE VECTEURS A CARACTERISTIQUES DETERMINEES DYNAMIQUEMENT
Abstract
(EN)
In a mobile wireless communication system automatic speech recognition is performed in a distributed manner using a mobile station based near or front end stage which extracts and vector quantizes recognition feature parameters from frames of an utterance and an infrastructure based back or far end stage which reverses the vector quantization to recover the feature parameters and subjects the feature parameters to a Hidden Markov Model (HMM) evaluation to obtain a recognition decision for the utterance. In order to conserve network capacity, the size (Sz) of the codebook used for the vector quantization, and the corresponding number of bits (B) per codebook index B, are adapted on a dialogue-by-dialogue basis in relation to the vocabulary size (V) for the dialogue. The allocation bit, which is performed at the front end, accomplishes a tradeoff between expected recgonition rate RR and expected bitrate RR by optimizing a metric which is a function of both. In addition to the frame-wise compression of an utterance into a string of code indices (q-string), further 'timewise' compression is obtained by run-length coding the string. The data transmitted from the front end to the back end includes the number of bits (B) per codebook value, which also indicates the codebook size (Sz).
(FR)
Selon l'invention, dans un système de communication sans fil mobile, une reconnaissance de parole automatique est effectuée de manière distribuée, au moyen d'une station mobile comprenant un étage d'extrémité proximale ou avant extrayant et effectuant une quantification vectorielle des paramètres de caractéristiques de reconnaissance à partir de trames de prononciation de son et d'une infrastructure comprenant un étage d'extrémité arrière ou distal inversant la quantification vectorielle de manière à récupérer les paramètres des caractéristiques et soumettant ceux-ci à une évaluation du modèle de Markov caché (HMM), de manière à obtenir une décision de reconnaissance destinée à la prononciation de son. En vue de conserver la capacité du réseau, la taille (Sz) du livre de codes utilisé pour la quantification vectorielle et le nombre correspondant de bits (B) par index B du livre de codes sont adaptés sur une base dialogue-par-dialogue en relation avec la taille du dictionnaire V pour le dialogue. L'adaptation, qui est effectuée au niveau de l'extrémité avant, exécute un compromis entre des taux RR de reconnaissance escomptés et des débits binaires RR escomptés en optimisant une métrique qui est une fonction des deux. En plus de la compression, au niveau de la trame, d'une prononciation de son en une chaîne d'indices de codes (chaîne q), une compression supplémentaire au niveau «temporel» est obtenue par codage par longueur de plage de la chaîne. Les données émises à partir des extrémités avant et arrière comprennent le nombre de bits (B) par valeur de livres de codes, indiquant également la taille du livre de codes (Sz).
Also published as
ININ/PCT/2002/765/CHE
Latest bibliographic data on file with the International Bureau