Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020133186 - DOCUMENT INFORMATION EXTRACTION METHOD, STORAGE MEDIUM, AND TERMINAL

Publication Number WO/2020/133186
Publication Date 02.07.2020
International Application No. PCT/CN2018/124782
International Filing Date 28.12.2018
IPC
G06F 16/35 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
CPC
G06F 16/35
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
Applicants
  • 深圳市世强元件网络有限公司 SHENZHEN SEKORM COMPONENT NETWORK CO., LTD [CN]/[CN]
Inventors
  • 陈满棠 CHEN, Mantang
Agents
  • 深圳市瑞方达知识产权事务所(普通合伙) SHENZHEN REFINED INTELLECTUAL PROPERTY OFFICE (GENERAL PARTNERSHIP)
Priority Data
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) DOCUMENT INFORMATION EXTRACTION METHOD, STORAGE MEDIUM, AND TERMINAL
(FR) PROCÉDÉ D'EXTRACTION D'INFORMATIONS DE DOCUMENT, SUPPORT D'INFORMATIONS ET TERMINAL
(ZH) 一种文档信息提取方法、存储介质及终端
Abstract
(EN)
Disclosed are a document information extraction method, a storage medium, and a terminal. The method comprises: acquiring text information and text position information of a document, wherein the text information corresponds to the text position information (S1); using a training morpheme classification template to extract a keyword from the text information (S2); and setting a hyperlink corresponding to the keyword (S3). The keyword, the hyperlink corresponding to the keyword, the text position information corresponding to the keyword, document attribute information of the document where the keyword is, and a keyword classification are stored. According to the method, a terminology keyword, a product keyword, a category keyword and an attribute keyword can be extracted from an information source of a data document of a vertical field, thereby making the searching of document information more accurate, improving the search matching degree and improving the user's searching experience.
(FR)
L'invention concerne un procédé d'extraction d'informations de document, un support d'informations et un terminal. Le procédé consiste : à acquérir des informations de texte et des informations de position de texte d'un document, les informations de texte correspondant aux informations de position de texte (S1); à utiliser un modèle de classification de morphèmes d'apprentissage pour extraire un mot-clé à partir des informations de texte (S2); et à définir un hyperlien correspondant au mot-clé (S3). Le mot-clé, l'hyperlien correspondant au mot-clé, les informations de position de texte correspondant au mot-clé, des informations d'attribut de document du document où se trouve le mot-clé et une classification de mot-clé sont stockés. Selon le procédé, un mot-clé de terminologie, un mot-clé de produit, un mot-clé de catégorie et un mot-clé d'attribut peuvent être extraits d'une source d'informations d'un document de données d'un champ vertical, ce qui permet d'améliorer la précision de recherche d'informations de document, le degré de correspondance de recherche et l'expérience de recherche d'un utilisateur.
(ZH)
一种文档信息提取方法、存储介质及终端。该方法包括:获取文档的文本信息和文本位置信息,文本信息对应文本位置信息(S1);使用训练语素分类模板从文本信息中提取关键词(S2);设置关键词对应的超链接(S3)。存储关键词、关键词对应的超链接、关键词对应的文本位置信息、关键词所在文档的文档属性信息、以及关键词分类。该方法能够从垂直领域的资料文档的信息源中提取出专业术语关键词、产品关键词、品类关键词、属性关键词,使文档信息查找更定准确,提高搜索匹配度,提高用户搜索体验。
Latest bibliographic data on file with the International Bureau