Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2021057038 - APPAREIL ET PROCÉDÉ DE RECONNAISSANCE DE LA PAROLE ET DE DÉTECTION DE MOTS-CLÉS SUR LA BASE D'UN MODÈLE MULTITÂCHE

Numéro de publication WO/2021/057038
Date de publication 01.04.2021
N° de la demande internationale PCT/CN2020/090285
Date du dépôt international 14.05.2020
CIB
G10L 15/06 2013.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
06Création de gabarits de référence; Entraînement des systèmes de reconnaissance de la parole, p.ex. adaptation aux caractéristiques de la voix du locuteur
G10L 15/16 2006.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
16utilisant des réseaux neuronaux artificiels
G10L 15/22 2006.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
22Procédures utilisées pendant le processus de reconnaissance de la parole, p.ex. dialogue homme-machine 
G10L 15/26 2006.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
26Systèmes de synthèse de texte à partir de la parole
CPC
G10L 15/063
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
063Training
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
G10L 15/22
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
G10L 15/26
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
26Speech to text systems
G10L 2015/225
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
225Feedback of the input speech
Déposants
  • 上海依图信息技术有限公司 SHANGHAI YITU INFORMATION TECHNOLOGY CO., LTD. [CN]/[CN]
Inventeurs
  • 赖家豪 LAI, Jiahao
  • 郑达 ZHENG, Da
  • 李索恒 LI, Suoheng
  • 张志齐 ZHANG, Zhiqi
Mandataires
  • 上海市汇业律师事务所 SHANGHAI HUIYE LAW FIRM
Données relatives à la priorité
201910906552.124.09.2019CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) APPARATUS AND METHOD FOR SPEECH RECOGNITION AND KEYWORD DETECTION BASED ON MULTI-TASK MODEL
(FR) APPAREIL ET PROCÉDÉ DE RECONNAISSANCE DE LA PAROLE ET DE DÉTECTION DE MOTS-CLÉS SUR LA BASE D'UN MODÈLE MULTITÂCHE
(ZH) 基于多任务模型的语音识别与关键词检测装置和方法
Abrégé
(EN)
An apparatus for speech recognition and keyword detection based on a multi-task model, comprising a neural network (102), a speech recognition decoder, a keyword decoder, and a training module. At a training stage, the training module trains the speech recognition decoder and the neural network (102) by using first input audio data (109a), a first text tag (107), and a first CTC loss function (105) and trains the keyword decoder and the neural network (102) by using the first input audio data (109a), a second text tag (108), and a second CTC loss function (106). In the training process, back propagation is performed according to output of the corresponding CTC loss functions (105, 106) to realize training of the neural network (102), the speech recognition decoder, and the keyword decoder. Also involved is a method for speech recognition and keyword detection based on a multi-task model. According to the apparatus and method, the keyword detection ability of the model can be trained while training data of speech recognition is effectively utilized, and the accuracy rate and recall rate of keyword detection are remarkably increased.
(FR)
L'invention concerne un appareil de reconnaissance de la parole et de détection de mots-clés sur la base d'un modèle multitâche, ledit appareil comportant un réseau neuronal (102), un décodeur de reconnaissance de la parole, un décodeur de mots-clés et un module d'apprentissage. Au niveau d'une phase d'apprentissage, le module d'apprentissage forme le décodeur de reconnaissance de la parole et le réseau neuronal (102) à l'aide de premières données audio d'entrée (109a), d'une première étiquette de texte (107) et d'une première fonction de perte de classification temporelle connexionniste (CTC) (105), et forme le décodeur de mots-clés et le réseau neuronal (102) à l'aide des premières données audio d'entrée (109a), d'une seconde étiquette de texte (108) et d'une seconde fonction de perte de CTC (106). Dans le processus d'apprentissage, une propagation arrière est effectuée en fonction de la sortie des fonctions de perte de CTC correspondantes (105, 106) pour exécuter l'apprentissage du réseau neuronal (102), du décodeur de reconnaissance de la parole et du décodeur de mots-clés. L'invention concerne également un procédé de reconnaissance de la parole et de détection de mots-clés sur la base d'un modèle multitâche. Selon l'appareil et le procédé, la fonction de détection de mots-clés du modèle peut être formée pendant que des données d'apprentissage de reconnaissance de la parole sont efficacement utilisées, et les taux de précision et de rappel de détection de mots-clés sont remarquablement augmentés.
(ZH)
一种基于多任务模型的语音识别与关键词检测装置,包括:神经网络(102);语音识别解码器,关键词解码器,训练模块;在训练阶段,训练模块采用第一输入音频数据(109a)、第一文本标签(107)以及第一CTC损失函数(105)对语音识别解码器和神经网络(102)进行训练,采用第一输入音频数据(109a)、第二文本标签(108)以及第二CTC损失函数(106)对关键词解码器和神经网络(102)进行训练,在训练过程中,根据对应的CTC损失函数(105、106)的输出进行反向传播实现对神经网络(102)、语音识别解码器和关键词解码器的训练。还涉及一种基于多任务模型的语音识别与关键词检测方法。能有效的利用语音识别的训练数据同时训练模型的关键词检测能力,从而显著提升关键词检测的准确率和召回率。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international