Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020107835 - SAMPLE DATA PROCESSING METHOD AND DEVICE

Publication Number WO/2020/107835
Publication Date 04.06.2020
International Application No. PCT/CN2019/088803
International Filing Date 28.05.2019
IPC
G06F 16/35 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
CPC
G06F 40/289
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
289Phrasal analysis, e.g. finite state techniques or chunking
Applicants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventors
  • 周涛涛 ZHOU, Taotao
  • 周宝 ZHOU, Bao
  • 陈远旭 CHEN, Yuanxu
  • 王健宗 WANG, Jianzong
  • 肖京 XIAO, Jing
Agents
  • 广州三环专利商标代理有限公司 SCIHEAD IP LAW FIRM
Priority Data
201811421160.826.11.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) SAMPLE DATA PROCESSING METHOD AND DEVICE
(FR) PROCÉDÉ ET DISPOSITIF DE TRAITEMENT DE DONNÉES D'ÉCHANTILLON
(ZH) 一种样本数据处理方法及装置
Abstract
(EN)
Disclosed are a sample data processing method and device. The method is suitable for training of a machine learning model for short text classification. The method comprises: obtaining a word segmentation result obtained by performing word segmentation on a short text sample, and obtaining a bag of keywords comprising N keywords; determining a first element set according to the word segmentation result and the bag of keywords; obtaining a target word in the word segmentation result, and obtaining a similarity value between the target word and each keyword in the bag of keywords; and if the similarity value between the target word and a first keyword in the bag of keywords is greater than a similarity threshold, updating a first element in the first element set according to the similarity value between the target word and the first keyword to obtain a second element set, each element in the second element set being used for constructing the machine learning model for short text classification. By adoption of embodiments of the present application, the performance of the machine learning model constructed using the element set can be improved.
(FR)
L'invention concerne un dispositif et un procédé de traitement d'échantillon. Le procédé est approprié pour l'apprentissage d'un modèle d'apprentissage machine pour une classification de texte court. Le procédé consiste : à obtenir un résultat de segmentation de mot obtenu par réalisation d'une segmentation de mot sur un échantillon de texte court, et obtenir un sac de mots-clés comprenant N mots-clés ; à déterminer un premier ensemble d'éléments en fonction du résultat de segmentation de mots et du sac de mots-clés ; à obtenir un mot cible dans le résultat de segmentation de mots, et à obtenir une valeur de similarité entre le mot cible et chaque mot-clé dans le sac de mots-clés ; et si la valeur de similarité entre le mot cible et un premier mot-clé dans le sac de mots-clés est supérieure à un seuil de similarité, à mettre à jour un premier élément dans le premier ensemble d'éléments en fonction de la valeur de similarité entre le mot cible et le premier mot-clé pour obtenir un second ensemble d'éléments, chaque élément dans le second ensemble d'éléments étant utilisé pour construire le modèle d'apprentissage machine pour une classification de texte court. L'adoption de modes de réalisation de la présente invention permet d'améliorer les performances du modèle d'apprentissage machine construit à l'aide de l'ensemble d'éléments.
(ZH)
本申请实施例公开了一种样本数据处理方法及装置,该方法适用于短文本分类的机器学习模型训练,该方法包括:获取短文本样本进行分词后的分词结果,并获取包含N个关键词的关键词词袋,根据该分词结果与该关键词词袋确定出第一元素集合,获取该分词结果中的目标词,并获取该目标词与该关键词词袋中各个关键词的相似度值,当该目标词与该关键词词袋中的第一关键词的相似度值大于相似度阈值,则根据该目标词与该第一关键词的相似度值更新该第一元素集合中的第一元素,得到第二元素集合,该第二元素集合中的各个元素用于构建用于短文本分类的机器学习模型。采用本申请实施例,可以提高利用元素集合构建的机器学习模型的性能。
Also published as
Latest bibliographic data on file with the International Bureau