Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020163157 - RECONNAISSANCE AUTOMATIQUE DE LA PAROLE SANS SUPERVISION

Numéro de publication WO/2020/163157
Date de publication 13.08.2020
N° de la demande internationale PCT/US2020/016014
Date du dépôt international 31.01.2020
CIB
G10L 15/08 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
G10L 13/08 2013.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
13Synthèse de la parole; Systèmes de synthèse de la parole à partir de texte
08Analyse de texte ou génération de paramètres pour la synthèse de la parole à partir de texte, p.ex. conversion graphème-phonème, génération de prosodie ou détermination de l'intonation ou de l'accent tonique
G10L 15/02 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
02Extraction de caractéristiques pour la reconnaissance de la parole; Sélection d'unités de reconnaissance 
G10L 15/06 2013.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
06Création de gabarits de référence; Entraînement des systèmes de reconnaissance de la parole, p.ex. adaptation aux caractéristiques de la voix du locuteur
CPC
G06F 40/20
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
G06N 3/0445
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0445Feedback networks, e.g. hopfield nets, associative networks
G06N 3/088
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
088Non-supervised learning, e.g. competitive learning
G06N 7/005
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
7Computer systems based on specific mathematical models
005Probabilistic networks
G10L 15/02
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
Déposants
  • TENCENT AMERICA LLC [US]/[US]
Inventeurs
  • CHEN, Jianshu
  • YU, Chengzhu
  • YU, Dong
  • YEH, Chih-Kuan
Mandataires
  • RABENA, John F.
  • BIRD, John M.
  • EMERY, David P.
Données relatives à la priorité
16/269,95107.02.2019US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) UNSUPERVISED AUTOMATIC SPEECH RECOGNITION
(FR) RECONNAISSANCE AUTOMATIQUE DE LA PAROLE SANS SUPERVISION
Abrégé
(EN)
A method for generating an automatic speech recognition (ASR) model using unsupervised learning includes obtaining, by a device, text information. The method includes determining, by the device, a set of phoneme sequences associated with the text information. The method includes obtaining, by the device, speech waveform data. The method includes determining, by the device, a set of phoneme boundaries associated with the speech waveform data. The method includes generating, by the device, the ASR model using an output distribution matching (ODM) technique based on determining the set of phoneme sequences associated with the text information and based on determining the set of phoneme boundaries associated with the speech waveform data.
(FR)
L'invention concerne un procédé de production d'un modèle de reconnaissance automatique de la parole (RAP) utilisant un apprentissage non supervisé, consistant à obtenir, par un dispositif, des informations textuelles. Le procédé consiste à déterminer, par le dispositif, un ensemble de séquences de phonèmes associées aux informations de texte. Le procédé consiste à obtenir, par le dispositif, des données de forme d'onde de parole. Le procédé consiste à déterminer, par le dispositif, un ensemble de limites de phonèmes associées aux données de forme d'onde de parole. Le procédé consiste à générer, par le dispositif, le modèle de RAP à l'aide d'une technique de mise en correspondance de distribution de sortie (CDS), sur la base de la détermination de l'ensemble de séquences de phonèmes associées aux informations de texte et sur la base de la détermination de l'ensemble de limites de phonèmes associées aux données de forme d'onde de parole.
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international