Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022160818 - METHOD AND SYSTEM FOR SCREENING CORPUS DATA IN VERTICAL FIELD

Publication Number WO/2022/160818
Publication Date 04.08.2022
International Application No. PCT/CN2021/126661
International Filing Date 27.10.2021
IPC
G06F 16/33 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
CPC
G06F 16/3344
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
334Query execution
3344using natural language analysis
G06F 16/35
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
G06F 40/284
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
284Lexical analysis, e.g. tokenisation or collocates
G06F 40/289
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
289Phrasal analysis, e.g. finite state techniques or chunking
G06F 40/30
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
30Semantic analysis
Applicants
  • 语联网(武汉)信息技术有限公司 IOL (WUHAN) INFORMATION TECHNOLOGY CO., LTD. [CN]/[CN]
Inventors
  • 蔡洁 CAI, Jie
Agents
  • 北京路浩知识产权代理有限公司 CN-KNOWHOW INTELLECTUAL PROPERTY AGENT LIMITED
Priority Data
202110108491.127.01.2021CN
Publication Language Chinese (zh)
Filing Language Chinese (ZH)
Designated States
Title
(EN) METHOD AND SYSTEM FOR SCREENING CORPUS DATA IN VERTICAL FIELD
(FR) PROCÉDÉ ET SYSTÈME PERMETTANT DE FILTRER DES DONNÉES DE CORPUS DANS UN CHAMP VERTICAL
(ZH) 垂直领域语料数据筛选方法及系统
Abstract
(EN) A method and a system for screening corpus data in the vertical field. Said method comprises: performing word segmentation on corpus data to be screened, and converting words of said corpus data into word vectors (101); fusing the word vectors of all the words of said corpus data, and taking a fusion result as a semantic vector of said corpus data (102); and calculating the similarity between the semantic vector of said corpus data and a semantic vector pre-acquired from sample corpus data in the vertical field, and if the similarity is greater than a preset threshold, determining that the corpus data to be screened is corpus data in the vertical field (103). According to the method, corpus data to be screened of a document level, a sentence level and a paragraph level can be screened; in addition, when sample corpus data in the vertical field is small, the precision of corpus data screening can still be ensured.
(FR) L'invention concerne un procédé et un système permettant de filtrer des données de corpus dans un champ vertical. Ledit procédé consiste : à réaliser une segmentation de mots sur des données de corpus à filtrer et à convertir des mots desdites données de corpus en vecteurs de mots (101) ; à fusionner les vecteurs de mots de tous les mots desdites données de corpus et à prendre un résultat de fusion comme vecteur sémantique desdites données de corpus (102) ; et à calculer la similarité entre le vecteur sémantique desdites données de corpus et un vecteur sémantique préacquis à partir de données de corpus d'échantillon dans le champ vertical et, si la similarité est supérieure à un seuil prédéfini, à déterminer que les données de corpus à filtrer sont des données de corpus dans le champ vertical (103). Selon le procédé, des données de corpus à filtrer au niveau d'un document, au niveau d'une phrase et au niveau d'un paragraphe peuvent être filtrées ; de plus, lorsque des données de corpus d'échantillon dans le champ vertical sont petites, la précision du filtrage de données de corpus peut encore être assurée.
(ZH) 一种垂直领域语料数据筛选方法及系统,该方法包括:对待筛选语料数据进行分词,将所述待筛选语料数据的词转换为词向量(101);将所述待筛选语料数据的所有词的词向量进行融合,将融合结果作为所述待筛选语料数据的语义向量(102);计算所述待筛选语料数据的语义向量和垂直领域的样本语料数据预先获取的语义向量之间的相似度,若所述相似度大于预设阈值,则确定所述待筛选语料数据为所述垂直领域的语料数据(103)。上述方法一方面可以对文档级、句子级和段落级的待筛选语料数据进行筛选,另一方面,在垂直领域的样本语料数据较少时,依然能保证语料数据筛选的精度。
Related patent documents
Latest bibliographic data on file with the International Bureau