Processing

Please wait...

Settings

Settings

1. WO2020000848 - KNOWLEDGE GRAPH AUTOMATIC CONSTRUCTION METHOD AND SYSTEM FOR MASSIVE UNSTRUCTURED TEXT

Publication Number WO/2020/000848
Publication Date 02.01.2020
International Application No. PCT/CN2018/114011
International Filing Date 05.11.2018
IPC
[IPC code unknown for G06F 16]
G06F 16/00 (2019.01)
CPC
G06F 16/00
Applicants
  • 中译语通科技股份有限公司 GLABAL TONE COMMUNICATION TECHNOLOGY CO., LTD. [CN/CN]; 中国北京市 石景山区石景山路20号中铁建设大厦16层 F/16 China Railway Construction Building No. 20 Shijingshan Road, Shijingshan District Beijing 100031, CN
Inventors
  • 李世奇 LI, Shiqi; CN
  • 程国艮 CHENG, Guogen; CN
Agents
  • 北京万贝专利代理事务所(特殊普通合伙) BEIJING WANBEI PATENT AGENCY OFFICE; 中国北京市 石景山区万达广场C18层陈领 CHEN, Ling C18, Wanda Plaza, Shijingshan District Beijing 100040, CN
Priority Data
201810687745.828.06.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) KNOWLEDGE GRAPH AUTOMATIC CONSTRUCTION METHOD AND SYSTEM FOR MASSIVE UNSTRUCTURED TEXT
(FR) PROCÉDÉ ET SYSTÈME DE CONSTRUCTION AUTOMATIQUE DE GRAPHE DE CONNAISSANCES POUR UN TEXTE NON STRUCTURÉ MASSIF
(ZH) 面向海量非结构化文本的知识图谱自动构建方法及系统
Abstract
(EN)
The present invention relates to the technical field of computer software. Disclosed are a knowledge graph automatic construction method and system for massive unstructured text. A named entity recognition problem is abstracted into one sequence labeling problem: one sentence is given, each word in a sentence sequence is labeled; an effective feature is designed on the basis of training data, various classification models are learned, a trained classifier is used to predict relations; multiple pieces of existing knowledge are linked, one large-scale unified knowledge network is created from the top level; and entity information are grabbed from three major online encyclopedias, open websites, relevant knowledge bases or search engine logs and integrated. The present invention significantly increases the speed of constructing a knowledge graph, increases time efficiency, reduces costs for labor resource by 30% or more. At the same time, the present invention provides improved domain portability, when constructing the knowledge graph, optimization is only required for entities and a relational extraction algorithm in the present invention for rapid implementation.
(FR)
La présente invention se rapporte au domaine technique des logiciels informatiques. L'invention concerne un procédé et un système de construction automatique de graphe de connaissances pour un texte non structuré massif. Un problème de reconnaissance d'entité nommée est inclus dans un problème de marquage de séquence : une phrase est donnée, chaque mot dans une séquence de phrases est marqué ; une caractéristique efficace est conçue sur la base de données d'apprentissage, divers modèles de classification sont appris, un classificateur entraîné est utilisé pour prédire des relations ; de multiples éléments de connaissances existantes sont liés, un réseau de connaissances unifié à grande échelle est créé à partir du niveau supérieur ; et des informations d'entité sont saisies à partir de trois encyclopédies en ligne principales, de sites Web ouverts, de bases de connaissances pertinentes ou de journaux de moteurs de recherche et intégrées. La présente invention augmente significativement la vitesse de construction d'un graphe de connaissances, augmente l'efficacité temporelle et réduit les coûts pour la ressource de main-d’œuvre de 30 % ou plus. En même temps, la présente invention fournit une portabilité de domaine améliorée ; lors de la construction du graphe de connaissances, l'optimisation n'est requise que pour des entités et pour un algorithme d'extraction relationnelle dans la présente invention pour une mise en œuvre rapide.
(ZH)
本发明属于计算机软件技术领域,公开了一种面向海量非结构化文本的知识图谱自动构建方法及系统,将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。本发明能够大幅提高知识图谱的构建速度,提高时间效率,降低人力资源成本30%以上。同时,本发明具有较好的领域移植性,在构建知识图谱时,仅需对本发明中的实体和关系抽取算法进行优化,即可迅速实现。
Latest bibliographic data on file with the International Bureau