Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020063071 - SENTENCE VECTOR CALCULATION METHOD BASED ON CHI-SQUARE TEST, AND TEXT CLASSIFICATION METHOD AND SYSTEM

Publication Number WO/2020/063071
Publication Date 02.04.2020
International Application No. PCT/CN2019/097187
International Filing Date 23.07.2019
IPC
G06F 17/27 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
20Handling natural language data
27Automatic analysis, e.g. parsing, orthograph correction
CPC
G06F 40/279
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
Applicants
  • 厦门快商通信息技术有限公司 XIAMEN KUAISHANGTONG INFORMATION TECHNOLOGY CO, LTD [CN]/[CN]
Inventors
  • 黄友福 HUANG, Youfu
  • 肖龙源 XIAO, Longyuan
  • 蔡振华 CAI, Zhenhua
  • 李稀敏 LI, Ximin
  • 刘晓葳 LIU, Xiaowei
  • 谭玉坤 TAN, Yukun
Agents
  • 厦门仕诚联合知识产权代理事务所(普通合伙) XIAMEN SHICHENG ASSOCIATES INTELLECTUAL PROPERTY AGENCY
Priority Data
201811130081.127.09.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) SENTENCE VECTOR CALCULATION METHOD BASED ON CHI-SQUARE TEST, AND TEXT CLASSIFICATION METHOD AND SYSTEM
(FR) PROCÉDÉ DE CALCUL DE VECTEUR DE PHRASE FONDÉ SUR UN TEST χ2, PROCÉDÉ ET SYSTÈME DE CLASSIFICATION DE TEXTE
(ZH) 基于卡方检验的句向量计算方法、文本分类方法及系统
Abstract
(EN)
Disclosed are a sentence vector calculation method based on a chi-square test, and a text classification method and system, the method involving: carrying out word segmentation processing on the current text and removing stop words to obtain a word segmentation result; calculating a word vector of each word in the word segmentation result; calculating a chi-square value between each word vector and a preset category, and dividing the word vectors into feature words and non-feature words according to the chi-square values; calculating usage frequency of the feature words in the preset category, giving a first weight value to the feature words according to the usage frequency, and giving a second weight value to the non-feature words, wherein the first weight value is greater than the second weight value; and calculating a weighted mean value of all word vectors according to the word vectors of the feature words and the non-feature words and the corresponding weight values, and taking same as a sentence vector of the current text, thereby improving a weight value of the sentence vector in a feature dimension, reducing mutual interference between the word vectors in text information and greatly improving the accuracy of text classification.
(FR)
L'invention concerne un procédé de calcul de vecteur de phrase fondé sur un test χ2, ainsi qu'un procédé et un système de classification de texte, le procédé consistant : à effectuer un traitement de segmentation de mot sur le texte en cours et à éliminer des mots vides afin d'obtenir un résultat de segmentation de mot ; à calculer un vecteur de mot de chaque mot dans le résultat de segmentation de mot ; à calculer une valeur χ2 entre chaque vecteur de mot et une catégorie prédéfinie, et à diviser les vecteurs de mots en mots caractéristiques et en mots non-caractéristiques en fonction des valeurs χ2 ; à calculer la fréquence d'utilisation des mots caractéristiques dans la catégorie prédéfinie, en donnant une première valeur de pondération aux mots caractéristiques en fonction de la fréquence d'utilisation, et en donnant une seconde valeur de pondération aux mots non caractéristiques, la première valeur de pondération étant supérieure à la seconde valeur de pondération ; et à calculer une valeur moyenne pondérée de tous les vecteurs de mots en fonction des vecteurs de mots des mots caractéristiques et des mots non caractéristiques et des valeurs de pondération correspondantes, et à adopter ces derniers en tant que vecteur de phrase du texte en cours, ce qui permet d'améliorer une valeur de pondération du vecteur de phrase dans une dimension de caractéristique, de réduire l'interférence mutuelle entre les vecteurs de mots dans des informations de texte et d'améliorer considérablement la précision de la classification de texte.
(ZH)
本发明公开了一种基于卡方检验的句向量计算方法、文本分类方法及系统,其通过对当前文本进行分词处理,并去除停用词,得到分词结果;计算所述分词结果中每个词的词向量;计算每个词向量与预设类别之间的卡方值,并根据所述卡方值将所述词向量划分为特征词和非特征词;计算所述特征词在所述预设类别中的使用频率,根据所述使用频率对所述特征词赋予第一权值,并对所述非特征词赋予第二权值;且所述第一权值大于所述第二权值;根据所述特征词和所述非特征词的词向量及对应的权值,计算所有词向量的加权平均值,作为当前文本的句向量,从而提高了句向量在特征维度的权值,降低了文本信息中词向量间的相互干扰,极大的提高文本分类的准确性。
Also published as
Latest bibliographic data on file with the International Bureau