Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020220636 - TEXT DATA ENHANCEMENT METHOD AND APPARATUS, ELECTRONIC DEVICE, AND NON-VOLATILE COMPUTER-READABLE STORAGE MEDIUM

Publication Number WO/2020/220636
Publication Date 05.11.2020
International Application No. PCT/CN2019/117663
International Filing Date 12.11.2019
IPC
G06K 9/62 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
CPC
G06F 17/2705
G06F 17/2785
G06K 9/6256
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
6256Obtaining sets of training patterns; Bootstrap methods, e.g. bagging, boosting
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
Applicants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventors
  • 于凤英 YU, Fengying
  • 王健宗 WANG, Jianzong
Agents
  • 深圳市隆天联鼎知识产权代理有限公司 SHENZHEN LUNGTIN LIANDING INTELLECTUAL PROPERTY AGENT LTD.
Priority Data
201910350209.328.04.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) TEXT DATA ENHANCEMENT METHOD AND APPARATUS, ELECTRONIC DEVICE, AND NON-VOLATILE COMPUTER-READABLE STORAGE MEDIUM
(FR) PROCÉDÉ ET APPAREIL D'ENRICHISSEMENT DE DONNÉES TEXTUELLES, DISPOSITIF ÉLECTRONIQUE ET SUPPORT DE STOCKAGE NON VOLATIL LISIBLE PAR ORDINATEUR
(ZH) 文本数据增强方法及装置、电子设备、计算机非易失性可读存储介质
Abstract
(EN)
A text data enhancement method and apparatus, and an electronic device, relating to the technical field of machine learning. The method comprises: acquiring original text (201); performing word segmentation processing on the original text to acquire several candidate words (202); for a target candidate word, on the basis of context information of the target candidate word, acquiring N replacement words from a pre-set dictionary by using a bidirectional long short-term memory network model (203), wherein the target candidate word is any one candidate word in the several candidate words, a semantic label corresponding to each replacement word in the N replacement words matches a semantic label corresponding to the original text, and N is a positive integer; and generating N pieces of first extended text according to the N replacement words and the original text (204). The method can improve the semantic accuracy of text data enhancement.
(FR)
La présente invention concerne un procédé et un appareil d'enrichissement de données textuelles et un dispositif électronique, se rapportant au domaine technique de l'apprentissage automatique. Le procédé comprend les étapes consistant à : acquérir un texte d'origine (201) ; réaliser un traitement de segmentation de mots sur le texte d'origine pour acquérir plusieurs mots candidats (202) ; pour un mot candidat cible, sur la base d'informations de contexte du mot candidat cible, acquérir N mots de remplacement à partir d'un dictionnaire prédéfini en utilisant un modèle de réseau bidirectionnel de mémoire à court et long terme (203), le mot candidat cible étant un mot candidat quelconque parmi les multiples mots candidats, une étiquette sémantique correspondant à chaque mot de remplacement dans les N mots de remplacement correspondant à une étiquette sémantique correspondant au texte d'origine, et N étant un nombre entier positif ; et générer N éléments de premier texte étendu en fonction des N mots de remplacement et du texte d'origine (204). Le procédé permet d'améliorer la précision sémantique de l'enrichissement de données textuelles.
(ZH)
一种文本数据增强方法及装置、电子设备,涉及机器学习技术领域,所述方法包括:获取原始文本(201);对原始文本进行分词处理,以获得若干候选词(202);针对目标候选词,基于目标候选词的上下文信息,利用双向长短期记忆网络模型从预设词典中获取N个替换词(203);其中,目标候选词为上述若干候选词中任一候选词,上述N个替换词中的每一个替换词对应的语义标签与原始文本对应的语义标签相匹配,N为正整数;根据上述N个替换词和原始文本,生成N个第一扩充文本(204)。该方法能够提高文本数据增强的语义准确性。
Latest bibliographic data on file with the International Bureau