Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020156153 - PROCÉDÉ ET SYSTÈME DE RECONNAISSANCE AUDIO ET DISPOSITIF

Numéro de publication WO/2020/156153
Date de publication 06.08.2020
N° de la demande internationale PCT/CN2020/072063
Date du dépôt international 14.01.2020
CIB
G10L 15/16 2006.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15Reconnaissance de la parole
08Classement ou recherche de la parole
16utilisant des réseaux neuronaux artificiels
G10L 17/08 2013.1
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
17Identification ou vérification du locuteur
06Techniques de prise de décision; Stratégies d’alignement de motifs
08Utilisation d’une mesure de distorsion ou d’une distance particulière entre un motif d’analyse et les modèles de référence
CPC
G06K 9/6215
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
6201Matching; Proximity measures
6215Proximity measures, i.e. similarity or distance measures
G06K 9/6234
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
6232Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
6234based on a discrimination criterion, e.g. discriminant analysis
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G10L 15/02
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
02Feature extraction for speech recognition; Selection of recognition unit
G10L 15/063
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
063Training
G10L 15/14
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
14using statistical models, e.g. Hidden Markov Models [HMMs]
Déposants
  • 腾讯科技(深圳)有限公司 TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN]/[CN]
Inventeurs
  • 苏丹 SU, Dan
  • 王珺 WANG, Jun
  • 陈杰 CHEN, Jie
  • 俞栋 YU, Dong
Mandataires
  • 深圳市深佳知识产权代理事务所(普通合伙) SHENPAT INTELLECTUAL PROPERTY AGENCY
Données relatives à la priorité
201910087286.429.01.2019CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) AUDIO RECOGNITION METHOD AND SYSTEM, AND DEVICE
(FR) PROCÉDÉ ET SYSTÈME DE RECONNAISSANCE AUDIO ET DISPOSITIF
(ZH) 音频识别方法、系统和机器设备
Abrégé
(EN)
A neural network training method for audio recognition. The method comprises: acquiring an audio data stream (310); for different audio data of each time frame in the audio data stream, performing feature extraction on each network layer in a neural network, and acquiring a depth feature corresponding to a time frame output (330); for a given tag in tagged data, fusing, by means of the depth feature, and in a preset loss function for the audio data stream, an interclass confusion measurement index and an intraclass distance penalty value relative to the given tag (350); and updating parameters on the neural network by using a loss function value acquired by means of the fusion (370). In the method, the neural network is trained using the loss function value acquired by means of fusion, and the interclass confusion measurement index corresponding to the given tag and penalty of distance measurement between relative center vectors of the audio data stream are combined so as to improve the robustness of audio recognition.
(FR)
La présente invention concerne un procédé d'apprentissage de réseau neuronal destiné à la reconnaissance audio. Le procédé consiste à : acquérir un flux de données audio (310) ; pour différentes données audio de chaque trame temporelle dans le flux de données audio, effectuer une extraction de caractéristiques sur chaque couche de réseau dans un réseau neuronal puis acquérir une caractéristique de profondeur correspondant à une sortie de trame temporelle (330) ; pour une étiquette donnée dans des données étiquetées, fusionner, au moyen de la caractéristique de profondeur et dans une fonction de perte prédéfinie pour le flux de données audio, un indice de mesure de confusion interclasse et une valeur de pénalité de distance d'intraclasse par rapport à l'étiquette donnée (350) ; et mettre à jour des paramètres sur le réseau neuronal à l'aide d'une valeur de fonction de perte acquise au moyen de la fusion (370). Dans le procédé, le réseau neuronal est entraîné à l'aide de la valeur de fonction de perte acquise au moyen de la fusion et l'indice de mesure de confusion interclasse correspondant à l'étiquette donnée ainsi que la pénalité de mesure de distance entre des vecteurs centraux relatifs du flux de données audio sont combinés de façon à améliorer l'efficacité de la reconnaissance audio.
(ZH)
一种实现音频识别的神经网络训练方法,该方法包括:获取音频数据流(310);对音频数据流中每个时间帧的不同音频数据,在神经网络中进行网络各层的特征抽取,获得对应时间帧输出的深度特征(330);为标注数据中的给定标注,通过深度特征对音频数据流在设定损失函数中融合相对给定标注的类间混淆度衡量指数和类内距离惩罚值(350);通过融合得到的损失函数值,进行神经网络中的参数更新(370)。该方法能够基于所融合得到的损失函数值进行神经网络的训练,综合音频数据流相对给定标注的类间混淆度衡量指数以及相对中心向量之间距离度量的惩罚来提高所实现音频识别的鲁棒性。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international