Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020220539 - DATA INCREMENT METHOD AND DEVICE, COMPUTER DEVICE AND STORAGE MEDIUM

Publication Number WO/2020/220539
Publication Date 05.11.2020
International Application No. PCT/CN2019/103271
International Filing Date 29.08.2019
IPC
G06F 16/35 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
CPC
G06F 16/35
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
G06F 17/2795
Applicants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventors
  • 郑立颖 ZHENG, Liying
  • 徐亮 XU, Liang
  • 阮晓雯 RUAN, Xiaowen
Agents
  • 深圳众鼎专利商标代理事务所(普通合伙) SHENZHEN ZHONGDING INTELLECTUAL PROPERTY AGENCY
Priority Data
201910350861.528.04.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) DATA INCREMENT METHOD AND DEVICE, COMPUTER DEVICE AND STORAGE MEDIUM
(FR) PROCÉDÉ ET DISPOSITIF D'INCRÉMENTATION DE DONNÉES, DISPOSITIF INFORMATIQUE ET SUPPORT DE STOCKAGE
(ZH) 数据增量方法、装置、计算机设备及存储介质
Abstract
(EN)
Disclosed are a data increment method, device, a computer device, and a storage medium. The method comprises: obtaining a scene classification sample corresponding to a specific scene, and a specified sample ratio (S10), using a regular expression to perform text preprocessing on the scene classification sample to obtain a text to be trained (S20); using an original word vector model to perform incremental training on the text to be trained to obtain a target word vector model (S30); determining the actual sample ratio corresponding to a classification label based on the actual number of samples corresponding to each classification label and the total number of samples corresponding to the scene classification samples (S40); if the actual sample ratio is less than the specified sample ratio, using the scene classification sample corresponding to the classification label as a sample to be incremented (S50); inputting the sample to be incremented into the target word vector model for processing to obtain a candidate phrase corresponding to the sample to be incremented (S60); and randomly selecting a target synonym from each candidate phrase for replacing the sample to be incremented to obtain a first newly-increased sample (S70). The method can effectively guarantee data balance.
(FR)
La présente invention concerne un procédé et un dispositif d'incrémentation de données, un dispositif informatique et un support de stockage. Le procédé comprend les étapes consistant à : obtenir un échantillon de classification de lieu correspondant à un lieu spécifique et un rapport d'échantillon spécifié (S10), utiliser une expression régulière pour effectuer un prétraitement de texte sur l'échantillon de classification de lieu pour obtenir un texte à entraîner (S20) ; utiliser un modèle de vecteur de mot d'origine pour effectuer un apprentissage incrémentiel sur le texte à apprendre afin d'obtenir un modèle de vecteur de mot cible (S30) ; déterminer le rapport d'échantillon réel correspondant à une étiquette de classification sur la base du nombre réel d'échantillons correspondant à chaque étiquette de classification et du nombre total d'échantillons correspondant aux échantillons de classification de lieu (S40) ; si le rapport d'échantillon réel est inférieur au rapport d'échantillon spécifié, utiliser l'échantillon de classification de lieu correspondant à l'étiquette de classification comme échantillon à incrémenter (S50) ; entrer l'échantillon à incrémenter dans le modèle de vecteur de mot cible à traiter afin d'obtenir une phrase candidate correspondant à l'échantillon à incrémenter (S60) ; et sélectionner de façon aléatoire un synonyme cible à partir de chaque phrase candidate pour remplacer l'échantillon à incrémenter afin d'obtenir un premier échantillon récemment augmenté (S70). Le procédé permet de garantir efficacement l'équilibre des données.
(ZH)
一种数据增量方法、装置、计算机设备及存储介质,该方法包括:获取特定场景对应的场景分类样本和指定样本比例(S10),采用正则表达式对场景分类样本进行文本预处理,获取待训练文本(S20);采用原始词向量模型对待训练文本进行增量训练,获取目标词向量模型(S30);基于每一分类标签对应的实际样本数量和场景分类样本对应的总样本数量,确定分类标签对应的实际样本比例(S40);若实际样本比例小于指定样本比例,则将分类标签对应的场景分类样本作为待增量样本(S50);将待增量样本输入至目标词向量模型中进行处理,获取与待增量样本对应的候选词组(S60),从每一候选词组中随机选取一个目标同义词对待增量样本进行替换处理,获取第一新增样本(S70),该方法可有效保证数据平衡。
Latest bibliographic data on file with the International Bureau