Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020133186 - DOCUMENT INFORMATION EXTRACTION METHOD, STORAGE MEDIUM, AND TERMINAL

Note: Text based on automatic Optical Character Recognition processes. Please use the PDF version for legal matters

[ ZH ]
一种文档信息提取方法、 存储介质及终端 技术领域

[0001] 本发明涉及文档检索领域,更具体地说,涉及一种文档信息提取方法、存储介 质及终端。

背景技术

[0002] 目前对资料文档的文字提取存在两种方法,一种是利用 OCR识别技术,将资料 文档转换成图像,经过版面分析,行字切分、文字识别,将结果输出;另一种 方法是利用资料文档进行解析,提取文字信息,直接将结果输出。但是,上述 两种方法重在提取资料文档的文本,并没有描述原始文档内容的垂直领域专业 术语关键词、产品关键词、品类关键词、属性关键词,也没有描述关键词之间 的关系。这成为制约人们在垂直行业领域信息检索的瓶颈。因此,对资料文档 进行信息抽取的研究显得十分重要。

发明概述

技术问题

[0003] 本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种文档信息 提取方法、存储介质及终端。

问题的解决方案

技术解决方案

[0004] 本发明解决其技术问题所采用的技术方案是:构造一种文档信息提取方法,包 括:

[0005] 获取文档的文本信息和文本位置信息,所述文本信息对应所述文本位置信息; [0006] 使用训练语素分类模板从所述文本信息中提取关键词;

[0007] 设置所述关键词对应的超链接。

[0008] 进一步,本发明所述的文档信息提取方法,所述文档为 PDF文档,所述获取文 档的文本信息和文本位置信息包括:

[0009] 使用光学字符识别方法识别所述 PDF文档中的文本信息,同时获取所述文本信 息在所述文档中某一页面内的位置信息和页数位置信息。

[0010] 进一步,本发明所述的文档信息提取方法,所述文本位置信息包括所述文本信 息的 X轴信息、 y轴信息、 Z轴信息,其中,所述 X轴信息和 y轴信息为所述文本信 息在所述文档中某一页面内的位置信息,所述 z轴信息为所述文本信息在所述文 档的页数信息。

[0011] 进一步,本发明所述的文档信息提取方法,所述使用训练语素分类模板从所述 文本信息中提取关键词包括:

[0012] 使用所述训练语素分类模板中的训练语素列表、所述训练语素列表的词性、所 述训练语素列表与预设资源的相关性、以及预设目标语素从所述文本信息中提 取关键词。

[0013] 进一步,本发明所述的文档信息提取方法,在所述使用训练语素分类模板从所 述文本信息中提取关键词之后,且在所述设置所述关键词对应的超链接之前, 所述方法还包括:

[0014] 对所述关键词进行关键词解码和关键词分类,其中所述关键词解码指按照所述 文档的文件结构进行数据解码;所述关键词分类指按照预设分类模式进行分类 ,其中所述预设分类模式包括专业术语关键词模式、产品关键词模式、品类关 键词模式、属性关键词模式。

[0015] 进一步,本发明所述的文档信息提取方法,在所述设置所述关键词对应的超链 接之后,所述方法还包括:

[0016] 存储所述关键词、所述关键词对应的超链接、所述关键词对应的文本位置信息 、所述关键词所在文档的文档属性信息、以及关键词分类,其中所述文档属性 信息包括文档标题、文档生成日期、文档版本号。

[0017] 进一步,本发明所述的文档信息提取方法,在存储所述关键词、所述关键词对 应的超链接、所述关键词对应的文本位置信息、所述关键词所在文档的文档属 性信息、以及关键词分类之后,所述方法还包括:

[0018] 接收关键词;

[0019] 查找与所述关键词对应的检索结果,所述检索结果包括文档标题、文档生成日 期、文档版本号、关键词、所述关键词对应的文本位置信息、以及所述关键词 对应的超链接。

[0020] 进一步,本发明所述的文档信息提取方法,在所述查找与所述关键词对应的检 索结果之后,所述方法还包括:

[0021] 根据所述超链接打开所述关键词所在文档,并根据所述关键词对应的文本位置 信息定位显示出所述关键词所在位置。

[0022] 另,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计 算机程序被处理器执行时实现如上述的文档信息提取方法。

[0023] 另,本发明还提供一种终端,所述终端包括处理器,所述处理器用于执行存储 器中存储的计算机程序时实现如上述文档信息提取方法的步骤。

发明的有益效果

有益效果

[0024] 实施本发明的一种文档信息提取方法、存储介质及终端,具有以下有益效果: 该方法包括:获取文档的文本信息和文本位置信息,文本信息对应文本位置信 息;使用训练语素分类模板从文本信息中提取关键词;设置关键词对应的超链 接。存储关键词、关键词对应的超链接、关键词对应的文本位置信息、关键词 所在文档的文档属性信息、以及关键词分类。本发明能够从垂直领域的资料文 档的信息源中提取出专业术语关键词、产品关键词、品类关键词、属性关键词 ,使文档信息查找更定准确,提高搜索匹配度,提高用户搜索体验。

对附图的简要说明

附图说明

[0025] 下面将结合附图及实施例对本发明作进一步说明,附图中:

[0026] 图 1是本发明一实施例提供的文档信息提取方法流程图;

[0027] 图 2是本发明一实施例提供的文档信息提取方法流程图;

[0028] 图 3是本发明一实施例提供的文档信息提取方法流程图;

[0029] 图 4是本发明一种终端的结构示意图。

实施该发明的最佳实施例

本发明的最佳实施方式

[0030] 为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说 明本发明的具体实施方式。

发明实施例

实施例

[0031] 如图 1所示,本实施例中文档信息提取方法包括:

[0032] S1、获取文档的文本信息和文本位置信息,文本信息对应文本位置信息。作为 选择,文档包括但不限于 word文档、 PDF文档、 excel文档、 TXT文档、 PPT文档 、 WPS文档等,该文档包括文本信息。文档中每个文本信息都要对应的文本位 置信息,通过文本位置信息可以定位到该文本信息。优选地,文档为 PDF文档, 获取文档的文本信息和文本位置信息包括:使用光学字符识别方法识别 PDF文档 中的文本信息,同时获取文本信息在文档中某一页面内的位置信息和页数位置 信息。

[0033] 进一步,在文档中建立坐标系,该坐标系包括 x轴、 y轴、 z轴,其中 x轴和 y轴 位于文档中每个页面内,用于定位文本信息在该页面内的位置; z轴表示文档页 数信息,用于定位文本信息所在页面的页数。所以获取的每个文本位置信息包 括文本信息的 X轴信息、 y轴信息、 z轴信息,其中, x轴信息和 y轴信息为文本信 息在文档中某一页面内的位置信息, z轴信息为文本信息在文档的页数信息。通 过 x轴信息、 y轴信息、 z轴信息即可快速准确的定位到文本信息在文档中的位置

[0034] S2、使用训练语素分类模板从文本信息中提取关键词。训练语素分类模板是通 过对包含各种训练语素的训练语料训练学习而获得的,训练语素分类模板包括 训练语素列表、训练语素列表的词性、训练语素列表与预设资源的相关性、以 及预设目标语素。所以,使用训练语素分类模板从文本信息中提取关键词包括 : 使用训练语素分类模板中的训练语素列表、训练语素列表的词性、训练语素 列表与预设资源的相关性、以及预设目标语素从文本信息中提取关键词。

[0035] 作为选择,本实施例的文档信息提取方法在使用训练语素分类模板从文本信息 中提取关键词之后,且在设置关键词对应的超链接之前,方法还包括:

[0036] 对关键词进行关键词解码和关键词分类,其中关键词解码指按照文档的文件结

构进行数据解码;关键词分类指按照预设分类模式进行分类,其中预设分类模 式包括专业术语关键词模式、产品关键词模式、品类关键词模式、属性关键词 模式。

[0037] S3、设置关键词对应的超链接。对文本信息中提取的所有关键词都设置超链接

,关键词和超链接一一对应,并且该超链接中包含文本信息对应的文本位置信 息,通过该超链接可快速定位至关键词所在文档中的位置。

[0038] 本实施例能够从垂直领域的资料文档的信息源中提取出专业术语关键词、产品 关键词、品类关键词、属性关键词,使文档信息查找更定准确。

实施例

[0039] 如图 2所示,在上述实施例的基础上,本实施例的文档信息提取方法在设置关 键词对应的超链接之后,还包括存储提取信息步骤:

[0040] S4、建立数据库,存储关键词、关键词对应的超链接、关键词对应的文本位置 信息、关键词所在文档的文档属性信息、以及关键词分类,其中文档属性信息 包括文档标题、文档生成日期、文档版本号。在数据库中,每个关键词及其对 应的关键词对应的超链接、关键词对应的文本位置信息、关键词所在文档的文 档属性信息、以及关键词分类组成一条存储数据。在后续检索过程中,以关键 词作为检索匹配对象,通过关键词匹配即可获取整条存储数据。可以理解,因 同一文档中可能存在多个关键词,或者不同文档中可能存在同一关键词,所以 同一关键词可存在多条存储数据。

[0041] 作为选择,数据库可存储在单独设置的服务器上,或者数据库设置在云平台上

[0042] 本实施例能够从垂直领域的资料文档的信息源中提取出专业术语关键词、产品 关键词、品类关键词、属性关键词,并建立专用数据库,使文档信息查找更定 准确。

实施例

[0043] 如图 3所示,在上述实施例的基础上,本实施例的文档信息提取方法,在存储 关键词、关键词对应的超链接、关键词对应的文本位置信息、关键词所在文档 的文档属性信息、以及关键词分类之后,方法还包括检索步骤:

[0044] S5、接收关键词。作为选择,可通过输入设备接收关键词,或通过语音接收设 备接收并识别关键词,或通过摄像头扫描电子元件的条码或二维码接收关键词 等。

[0045] S6、查找与关键词对应的检索结果。查找过程为:通过是否匹配判断接收到的 关键词是否在数据库中,若接收到的关键词与数据库中的关键词匹配,则读取 该关键词对应的一条存储数据,得到检索结果。若接收到的关键词与数据库中 的关键词不匹配,则说明没有该关键词数据。检索结果包括文档标题、文档生 成日期、文档版本号、关键词、关键词对应的文本位置信息、以及关键词对应 的超链接。

[0046] 作为选择,本实施例的文档信息提取方法,在查找与关键词对应的检索结果之 后,方法还包括检索结果显示步骤:

[0047] S7、根据超链接打开关键词所在文档,并根据关键词对应的文本位置信息定位 显示出关键词所在位置。每个文本位置信息包括文本信息的 x轴信息、 y轴信息 、 z轴信息,其中, x轴信息和 y轴信息为文本信息在文档中某一页面内的位置信 息, z轴信息为文本信息在文档的页数信息。通过 x轴信息、 y轴信息、 z轴信息即 可快速准确的定位到文本信息在文档中的位置。

[0048] 作为选择,若检索结果中包括多条关键词数据,则按照预设排序方式显示检索 结果,例如文档生成日期显示,按照关键词在文档中的前后关系显示,或按照 文档中关键词数显的频率优先显示频率高的文档中的关键词等。显示窗口的排 列可选择叠加式排列、窗口水平平铺排列、窗口竖直平铺排列、窗口棋盘式排 列等。对于同一文档中的多个关键词,可通过拆分显示窗口显示。

[0049] 作为选择,在定位显示出关键词所在位置后,可通过高亮、下划线、背景色等 方式突出显示关键词,方便用户查看。

[0050] 本实施例能够从垂直领域的资料文档的信息源中提取出专业术语关键词、产品 关键词、品类关键词、属性关键词,通过关键词进行检索,使文档信息查找更 定准确,提高搜索匹配度,提高用户搜索体验。

[0051] 作为选择,上述几种文档信息提取方法应用于电子元件文档中,这里的电子元 件文档包括电子元件的元件参数文档、元件使用说明文档、订单文档、元件电 路文档等。

[0052] 本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程 序被处理器执行时实现如上述的文档信息提取方法。

实施例

[0053] 如图 4所示,本实施例还提供一种终端,终端包括处理器,处理器用于执行存 储器中存储的计算机程序时实现如上述文档信息提取方法的步骤。作为选择, 终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、服务器等。

[0054] 本发明能够从垂直领域的资料文档的信息源中提取出专业术语关键词、产品关 键词、品类关键词、属性关键词,使文档信息查找更定准确,提高搜索匹配度 ,提高用户搜索体验。

[0055] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其 他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施 例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单 ,相关之处参见方法部分说明即可。

[0056] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单 元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清 楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了 各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术 方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用 不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

[0057] 结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器 执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RA M)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程 ROM、寄 存器、硬盘、可移动磁盘、 CD-ROM、或技术领域内所公知的任意其它形式的 存储介质中。

[0058] 以上实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的 人士能够了解本发明的内容并据此实施,并不能限制本发明的保护范围。凡跟 本发明权利要求范围所做的均等变化与修饰,均应属于本发明权利要求的涵盖

范围