Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019024008) PROCÉDÉ ET DISPOSITIF D’AMÉLIORATION DE DONNÉES VOCALES DANS UNE RECONNAISSANCE VOCALE BASÉS SUR UN RÉSEAU NEURONAL RÉCURRENT
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2019/024008 N° de la demande internationale : PCT/CN2017/095668
Date de publication : 07.02.2019 Date de dépôt international : 02.08.2017
CIB :
G10L 15/16 (2006.01) ,G10L 15/06 (2013.01) ,G10L 15/02 (2006.01) ,G10L 15/20 (2006.01)
G PHYSIQUE
10
INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
L
ANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15
Reconnaissance de la parole
08
Classement ou recherche de la parole
16
utilisant des réseaux neuronaux artificiels
G PHYSIQUE
10
INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
L
ANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15
Reconnaissance de la parole
06
Création de gabarits de référence; Entraînement des systèmes de reconnaissance de la parole, p.ex. adaptation aux caractéristiques de la voix du locuteur
G PHYSIQUE
10
INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
L
ANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15
Reconnaissance de la parole
02
Extraction de caractéristiques pour la reconnaissance de la parole; Sélection d'unités de reconnaissance
G PHYSIQUE
10
INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
L
ANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15
Reconnaissance de la parole
20
Techniques de reconnaissance de la parole spécialement adaptées de par leur robustesse contre les perturbations environnantes, p.ex. en milieu bruyant ou reconnaissance de la parole émise dans une situation de stress
Déposants :
中国科学院自动化研究所 INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES [CN/CN]; 中国北京市 海淀区中关村东路95号 No.95 East Zhongguancun Road Haidian District Beijing 100190, CN
Inventeurs :
赵媛媛 ZHAO, Yuanyuan; CN
徐爽 XU, Shuang; CN
徐波 XU, Bo; CN
Mandataire :
北京瀚仁知识产权代理事务所(普通合伙) HANRAY LAW FIRM; 中国北京市 北京市东城区王府井大街99号世纪大厦A709 709A, Century Square 99 Wangfujing Street Dongcheng District Beijing 100006, CN
Données relatives à la priorité :
Titre (EN) VOICE DATA ENHANCING METHOD AND DEVICE IN VOICE RECOGNITION BASED ON RECURRENT NEURAL NETWORK
(FR) PROCÉDÉ ET DISPOSITIF D’AMÉLIORATION DE DONNÉES VOCALES DANS UNE RECONNAISSANCE VOCALE BASÉS SUR UN RÉSEAU NEURONAL RÉCURRENT
(ZH) 基于循环神经网络语音识别中语音数据增强方法及装置
Abrégé :
(EN) A voice data enhancing method based on a recurrent neural network in the field of voice recognition processing aims at solving the problem of excessive modeling word dependence caused by irregular grammar phenomena of voice recognition simulation in voice recognition in a recurrent neural network. The method comprises: extracting acoustic features of various frequency energy values identifying voice from input voice data to generate acoustic feature vectors (201); obtaining a statement label sequence of the voice data according to a preset labeling file and the acoustic feature vectors (202); obtaining an alignment file after a decision cluster operation by means of the labeling file preset by a decision cluster, and the statement label sequence (203); generating a first random number γ between [0, 1], and comparing the first random number with a preset adjusting proportion α (204); and if the first random number γ is greater than the adjusting proportion α, performing enhancement processing on the voice data in a position indicated by a boundary file (205). The method enables irregular spoken language phenomena in training data to be increased quickly and conveniently.
(FR) La présente invention concerne un procédé d’amélioration de données vocales basé sur un réseau neuronal récurrent dans le domaine du traitement de reconnaissance vocale qui vise à résoudre le problème de dépendance excessive vis-à-vis de mots de modélisation causé par des phénomènes de grammaire irrégulière de simulation de reconnaissance vocale dans une reconnaissance vocale dans un réseau neuronal récurrent. Le procédé comprend : l’extraction de caractéristiques acoustiques de différentes valeurs d’énergie de fréquence identifiant la voix à partir de données vocales d’entrée pour générer des vecteurs de caractéristiques acoustiques (201) ; l’obtention d’une séquence d’étiquettes de déclaration des données vocales en fonction d’un fichier d’étiquetage prédéfini et des vecteurs de caractéristiques acoustiques (202) ; l’obtention d’un fichier d’alignement après une opération de grappe de décision au moyen du fichier d’étiquetage prédéfini par une grappe de décision, et la séquence d’étiquette d’instruction (203) ; la génération d’un premier nombre aléatoire γ compris entre [0, 1], et la comparaison du premier nombre aléatoire à une proportion d’ajustement prédéfinie α (204) ; et si le premier nombre aléatoire γ est supérieur à la proportion d’ajustement α, la conduite d’un traitement d’amélioration sur les données vocales dans une position indiquée par un fichier de limite (205). Le procédé permet que des phénomènes de langage énoncé irrégulier dans des données d’apprentissage soient augmentés rapidement et de façon pratique.
(ZH) 语音识别处理领域的一种基于循环神经网络的语音数据增强的方法,旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量(201);根据预设的标注文件和声学特征向量获得语音数据的语句标签序列(202);通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件(203);生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较(204);如果第一随机数γ大于调整比例α,在边界文件所指示的位置对上述语音数据进行增强处理(205)。能够快速、方便地增加训练数据中不规则的口语化现象。
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)