Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2001035389) TONE FEATURES FOR SPEECH RECOGNITION
Latest bibliographic data on file with the International Bureau   

Pub. No.: WO/2001/035389 International Application No.: PCT/EP2000/011293
Publication Date: 17.05.2001 International Filing Date: 10.11.2000
IPC:
G10L 11/06 (2006.01) ,G10L 15/18 (2006.01)
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
11
Determination or detection of speech or audio characteristics not restricted to a single one of groups G10L15/-G10L21/155
06
Discriminating between voiced and unvoiced parts of speech signals
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15
Speech recognition
08
Speech classification or search
18
using natural language modelling
Applicants:
HUANG, Chang-Han [CN/NL]; NL (UsOnly)
SEIDE, Frank [DE/NL]; NL (UsOnly)
KONINKLIJKE PHILIPS ELECTRONICS N.V. [NL/NL]; Groenewoudseweg 1 NL-5621 BA Eindhoven, NL (AllExceptUS)
Inventors:
HUANG, Chang-Han; NL
SEIDE, Frank; NL
Agent:
HOEKSTRA, Jelle; Internationaal Octrooibureau B.V. Prof. Holstlaan 6 NL-5656 AA Eindhoven, NL
Priority Data:
99203766.311.11.1999EP
Title (EN) TONE FEATURES FOR SPEECH RECOGNITION
(FR) CARACTERISTIQUES TONALES POUR RECONNAISSANCE DE LA PAROLE
Abstract:
(EN) Robust acoustic tone features are achieved first by the introduction of on-line, look-ahead trace back of the fundamental frequency (F0) contour with adaptive pruning, this fundamental frequency serves as the signal preprocessing front-end. The F0 contour is subsequently decomposed into lexical tone effect, phrase intonation effect, and random effect by means of time-variant, weighted moving average (MA) filter in conjunction with weighted (placing more emphasis on vowels) least squares of the F0 contour. The phrase intonation effect is defined as the long-term tendency of the voiced F0 contour, which can be approximated by a weighted-moving average of the F0 contour, with weights related to the degree of the periodicity of the signal. Since it is irrelevant from lexical tone effect, therefore it is removed by subtraction of the F0 contour under superposition assumption. The acoustic tone features are defined as two parts. First is the coefficients of the second order weighted regression of the de-intonation of the F0 contour over neighbouring frames, with window size related to the average length of a syllable and weights corresponding to the degree of the periodicity of the signal. The second part deals with the degree of the periodicity of the signal, which are the coefficients of the second order regression of the auto-correlation, with lag corresponding to the reciprocal of the pitch estimate from look-ahead tracing back procedure. These weights of the second order weighted regression of the de-intonation of the F0 contour are designed to emphasize/de-emphasize the voiced/unvoiced segments of the pitch contour in order to preserve the voiced pitch contour for the semi-voiced consonants. The advantage of this mechanism is, even if the speech segmentation has slightly errors, these weights with look-ahead adaptive-pruning trace back of the F0 contour served as the on-line signal pre-processing front-end, will preserve the pitch contour of the vowels for the pitch contour of the consonants. This vowel-preserving property of the tone features has the ability to prevent model parameters from bias estimation due to speech segmentation errors.
(FR) Selon l'invention, des caractéristiques tonales acoustiques robustes sont d'abord obtenues par introduction d'un retraçage anticipé en ligne du contour de la fréquence fondamentale (FO) par élagage adapté, cette fréquence fondamentale servant comme début de prétraitement de signal. Le contour de la FO est par la suite décomposé en effet tonal lexical, en effet d'intonation de la phrase, et en effet aléatoire à l'aide d'un filtre à moyenne pondérée mobile dans le temps conjointement avec accentuation (en accentuant davantage les voyelles) des moindres carrés du contour de la FO. L'effet d'intonation de la phrase est défini comme la tendance à long terme du contour de la FO voisé, qui peut être approché par une moyenne mobile pondérée du contour de la FO, avec des coefficients de pondération en rapport avec le degré de périodicité du signal. Puisqu'elle n'a aucun intérêt par rapport à l'effet tonal lexical, elle est retirée par soustraction du contour de la FO par hypothèse de superposition. Les caractéristiques tonales acoustiques sont définies en deux parties. La première concerne les coefficients de régression pondérée de second ordre des dés-intonations du contour de la FO sur des trames avoisinantes, avec une taille de fenêtre en rapport avec la longueur moyenne d'une syllabe et des coefficients de pondération correspondant au degré de périodicité du signal. La seconde traite des degrés de périodicité du signal, qui sont les coefficients de la régression de second ordre de l'autocorrélation, avec un décalage correspondant à la réciprocité de l'estimation de hauteur tonale du retraçage anticipé. Ces coefficients de pondération de la régression pondérée de second ordre de la dés-intonation du contour de la FO sont désignés pour accentuer/désaccentuer les segments voisés/non voisés du contour de la hauteur tonale de façon à conserver le contour de hauteur tonale voisé pour les consonnes semi-voisées. Les avantages de ce mécanisme sont que, même si la segmentation des signaux vocaux comporte peu d'erreurs, ces coefficients de pondération à retraçage-élagage adapté anticipé du contour de la FO utilisés comme le début de prétraitement de signal en ligne vont permettre de conserver le contour de hauteur tonale des voyelles pour le contour de hauteur tonale des consonnes. Cette propriété qu'ont les caractéristiques tonales de conserver les voyelles permet de protéger les paramètres modèles contre les fausses estimations dues à des erreurs de segmentation de la parole.
front page image
Designated States: CN, JP, KR, US
European Patent Office (EPO) (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
Publication Language: English (EN)
Filing Language: English (EN)