Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020107835 - PROCÉDÉ ET DISPOSITIF DE TRAITEMENT DE DONNÉES D'ÉCHANTILLON

Numéro de publication WO/2020/107835
Date de publication 04.06.2020
N° de la demande internationale PCT/CN2019/088803
Date du dépôt international 28.05.2019
CIB
G06F 16/35 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
30de données textuelles non structurées
35Groupement; Classement
CPC
G06F 40/289
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
289Phrasal analysis, e.g. finite state techniques or chunking
Déposants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventeurs
  • 周涛涛 ZHOU, Taotao
  • 周宝 ZHOU, Bao
  • 陈远旭 CHEN, Yuanxu
  • 王健宗 WANG, Jianzong
  • 肖京 XIAO, Jing
Mandataires
  • 广州三环专利商标代理有限公司 SCIHEAD IP LAW FIRM
Données relatives à la priorité
201811421160.826.11.2018CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) SAMPLE DATA PROCESSING METHOD AND DEVICE
(FR) PROCÉDÉ ET DISPOSITIF DE TRAITEMENT DE DONNÉES D'ÉCHANTILLON
(ZH) 一种样本数据处理方法及装置
Abrégé
(EN)
Disclosed are a sample data processing method and device. The method is suitable for training of a machine learning model for short text classification. The method comprises: obtaining a word segmentation result obtained by performing word segmentation on a short text sample, and obtaining a bag of keywords comprising N keywords; determining a first element set according to the word segmentation result and the bag of keywords; obtaining a target word in the word segmentation result, and obtaining a similarity value between the target word and each keyword in the bag of keywords; and if the similarity value between the target word and a first keyword in the bag of keywords is greater than a similarity threshold, updating a first element in the first element set according to the similarity value between the target word and the first keyword to obtain a second element set, each element in the second element set being used for constructing the machine learning model for short text classification. By adoption of embodiments of the present application, the performance of the machine learning model constructed using the element set can be improved.
(FR)
L'invention concerne un dispositif et un procédé de traitement d'échantillon. Le procédé est approprié pour l'apprentissage d'un modèle d'apprentissage machine pour une classification de texte court. Le procédé consiste : à obtenir un résultat de segmentation de mot obtenu par réalisation d'une segmentation de mot sur un échantillon de texte court, et obtenir un sac de mots-clés comprenant N mots-clés ; à déterminer un premier ensemble d'éléments en fonction du résultat de segmentation de mots et du sac de mots-clés ; à obtenir un mot cible dans le résultat de segmentation de mots, et à obtenir une valeur de similarité entre le mot cible et chaque mot-clé dans le sac de mots-clés ; et si la valeur de similarité entre le mot cible et un premier mot-clé dans le sac de mots-clés est supérieure à un seuil de similarité, à mettre à jour un premier élément dans le premier ensemble d'éléments en fonction de la valeur de similarité entre le mot cible et le premier mot-clé pour obtenir un second ensemble d'éléments, chaque élément dans le second ensemble d'éléments étant utilisé pour construire le modèle d'apprentissage machine pour une classification de texte court. L'adoption de modes de réalisation de la présente invention permet d'améliorer les performances du modèle d'apprentissage machine construit à l'aide de l'ensemble d'éléments.
(ZH)
本申请实施例公开了一种样本数据处理方法及装置,该方法适用于短文本分类的机器学习模型训练,该方法包括:获取短文本样本进行分词后的分词结果,并获取包含N个关键词的关键词词袋,根据该分词结果与该关键词词袋确定出第一元素集合,获取该分词结果中的目标词,并获取该目标词与该关键词词袋中各个关键词的相似度值,当该目标词与该关键词词袋中的第一关键词的相似度值大于相似度阈值,则根据该目标词与该第一关键词的相似度值更新该第一元素集合中的第一元素,得到第二元素集合,该第二元素集合中的各个元素用于构建用于短文本分类的机器学习模型。采用本申请实施例,可以提高利用元素集合构建的机器学习模型的性能。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international