Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020108483 - PROCÉDÉ D'APPRENTISSAGE DE MODÈLE, PROCÉDÉ DE TRADUCTION MACHINE, DISPOSITIF INFORMATIQUE ET SUPPORT DE STOCKAGE

Numéro de publication WO/2020/108483
Date de publication 04.06.2020
N° de la demande internationale PCT/CN2019/120975
Date du dépôt international 26.11.2019
CIB
G06N 3/04 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
NSYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3Systèmes de calculateurs basés sur des modèles biologiques
02utilisant des modèles de réseaux neuronaux
04Architecture, p.ex. topologie d'interconnexion
CPC
G06F 17/289
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
Déposants
  • 腾讯科技(深圳)有限公司 TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN]/[CN]
Inventeurs
  • 涂兆鹏 TU, Zhaopeng
  • 李建 LI, Jian
  • 王星 WANG, Xing
  • 王龙跃 WANG, Longyue
Mandataires
  • 北京三高永信知识产权代理有限责任公司 BEIJING SAN GAO YONG XIN INTELLECTUAL PROPERTY AGENCY CO., LTD.
Données relatives à la priorité
201811436794.028.11.2018CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) MODEL TRAINING METHOD, MACHINE TRANSLATION METHOD, COMPUTER DEVICE AND STORAGE MEDIUM
(FR) PROCÉDÉ D'APPRENTISSAGE DE MODÈLE, PROCÉDÉ DE TRADUCTION MACHINE, DISPOSITIF INFORMATIQUE ET SUPPORT DE STOCKAGE
(ZH) 模型训练方法、机器翻译方法、计算机设备和存储介质
Abrégé
(EN)
Disclosed by embodiments of the present application are a neural network model training method, a machine translation method, a computer device and a storage medium, the neural network model training method comprising: acquiring a training sample set comprising training samples and standard label vectors corresponding thereto; inputting the training samples into a neural network model comprising multiple attention networks; by means of the neural network model, performing nonlinear transformation on respective output vectors of the multiple attention networks to obtain characteristic fusion vectors corresponding to the multiple attention networks; and acquiring predicted label vectors outputted by the neural network model according to the characteristic fusion vectors, and adjusting model parameters of the neural network model according to the comparison result of the predicted label vectors and the standard label vectors until a convergence condition is satisfied to obtain a target neural network model. Various output vectors are fused by means of nonlinear transformation so that the various output vectors are fully interactive so as to generate more informative characteristic fusion characteristic vectors, thereby guaranteeing a better final output expression effect.
(FR)
Des modes de réalisation de la présente invention concernent un procédé d'apprentissage de modèle de réseau neuronal, un procédé de traduction machine, un dispositif informatique et un support de stockage, le procédé d'apprentissage de modèle de réseau neuronal consistant à : acquérir un ensemble d'échantillons d'apprentissage comprenant des échantillons d'apprentissage et des vecteurs d'étiquettes standard correspondant à ceux-ci ; entrer les échantillons d'apprentissage dans un modèle de réseau neuronal comprenant de multiples réseaux d'attention ; au moyen du modèle de réseau neuronal, mettre en oeuvre une transformation non linéaire sur des vecteurs de sortie respectifs des multiples réseaux d'attention pour obtenir des vecteurs de fusion caractéristiques correspondant aux multiples réseaux d'attention ; et acquérir des vecteurs d'étiquettes prédits délivrés en sortie par le modèle de réseau neuronal selon les vecteurs de fusion caractéristiques, et ajuster des paramètres de modèle du modèle de réseau neuronal en fonction du résultat de comparaison des vecteurs d'étiquette prédits et des vecteurs d'étiquette standard jusqu'à ce qu'une condition de convergence soit satisfaite pour obtenir un modèle de réseau neuronal cible. Divers vecteurs de sortie sont fusionnés au moyen d'une transformation non linéaire de telle sorte que les divers vecteurs de sortie sont pleinement interactifs de façon à générer des vecteurs caractéristiques de fusion caractéristique plus informatifs, garantissant ainsi un meilleur effet d'expression de sortie final.
(ZH)
本申请实施例公开了一种神经网络模型训练方法、机器翻译方法、计算机设备和存储介质,该方法包括:获取包括有训练样本及其对应的标准标签向量的训练样本集;将训练样本输入包括多个注意力网络的神经网络模型;通过神经网络模型对多个注意力网络各自的输出向量进行非线性变换,得到多个注意力网络对应的特征融合向量;获取神经网络模型根据特征融合向量输出预测标签向量,根据预测标签向量与标准标签向量的对比结果,对神经网络模型的模型参数进行调整,直到满足收敛条件,得到目标神经网络模型。通过非线性变换的方式融合各个输出向量,使得各个输出向量充分交互,生成更有信息量的特征融合特征向量,保证最终的输出表示效果更好。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international