Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020135462 - AUTOMATIC GENERALIZATION METHOD AND APPARATUS

Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177   0178   0179   0180   0181   0182   0183   0184   0185   0186   0187   0188   0189   0190   0191   0192   0193   0194   0195   0196   0197   0198   0199   0200   0201   0202   0203   0204   0205   0206   0207   0208   0209   0210   0211   0212   0213   0214   0215   0216   0217   0218   0219   0220   0221   0222   0223   0224   0225   0226   0227   0228   0229   0230   0231   0232   0233   0234   0235   0236   0237   0238   0239   0240   0241   0242   0243   0244   0245   0246   0247   0248   0249   0250   0251   0252   0253   0254   0255   0256   0257   0258   0259   0260   0261   0262   0263   0264   0265   0266   0267   0268   0269   0270   0271   0272   0273   0274   0275   0276   0277   0278   0279   0280   0281   0282   0283   0284   0285   0286   0287   0288  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19  

附图

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15  

说明书

发明名称 : 一种自动泛化方法及其装置

技术领域

[0001]
本发明实施例涉及智能问答领域,尤其涉及一种自动泛化方法及其装置。
[0002]
发明背景
[0003]
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。
[0004]
智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。为此,智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先可以识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。
[0005]
但是由于用户的表达习惯不同,基于同一个问题,不同的用户可能产生不同的问法,从而导致用户提出的问题与知识库中的问题匹配的几率低,进而导致用户体验差。
[0006]
发明内容
[0007]
为了克服上述缺陷,本发明实施例旨在提供一种为指定泛化目标产生泛化实例的方法及装置。
[0008]
根据本发明实施例的一个方面,提供一种自动泛化方法,包括:获取指定泛化目标,指定泛化目标为具体语句实例;确定预置知识库中与指定泛化目标匹配的第一标准问,预置知识库中包括多个知识点,每个知识点对应一个第一标准问,第一标准问关联有多个具体语义表达式;以及基于指定泛化目标匹配的第一标准问及指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[0009]
在本发明某些实施例中,确定预置知识库中与指定泛化目标匹配的第一标准问,包括:基于指定泛化目标与预置知识库中的每个第一标准问以及第一标准问关联的多个具体语义表达式计算多个第一相似度;以及确定多个第一相似度中数值最大且大于第一预设阈值的第一相似度对应的第一标准问或具体语义表达式关联的第一标准问为指定泛化目标匹配的第一标准问。
[0010]
在本发明某些实施例中,自动泛化方法还包括:确定抽象本体语义库中与指定泛化目标对应的抽象本体语义类,抽象本体语义库包括多个抽象本体语义类,每个抽象本体语义类包括多个抽象本体语义表达式;以及基于指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例。
[0011]
在本发明某些实施例中,确定抽象本体语义库中与指定泛化目标对应的抽象本体语义类,包括:对指定泛化目标进行分词处理,得到指定泛化目标中的本体词;将指定泛化目标中的本体词用本体语义成分符代替以生成指定泛化目标的指定抽象本体语义表达式;以及基于指定抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类。
[0012]
在本发明某些实施例中,基于指定抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类,包括:基于指定抽象本体语义表达式与多个抽象本体语义类中的每个抽象本体语义表达式计算多个第二相似度;以及确定多个第二相似度中数值最大且大于第二预设阈值的第二相似度对应的抽象本体语义表达式所属的抽象本体语义类为指定泛化目标对应的抽象本体语义类。
[0013]
在本发明某些实施例中,基于指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例,包括:获取指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式;以及将指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式中的本体语义成分符替换为本体词以生成多个第二泛化实例。
[0014]
在本发明某些实施例中,自动泛化方法还包括:将多个第一泛化实例放入指定泛化目标的泛化库。
[0015]
在本发明某些实施例中,自动泛化方法还包括:将多个第一泛化实例和/或多个第二泛化实例放入指定泛化目标的泛化库。
[0016]
在本发明某些实施例中,自动泛化方法还包括:确定抽象语义库中与指定泛化目标对应的抽象语义类,抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,每个抽象语义表达式由缺失语义成分和语义规则词构成;以及基于指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例。
[0017]
在本发明某些实施例中,确定抽象语义库中与指定泛化目标对应的抽象语义类,包括:对指定泛化目标执行分词以获得若干单词,若干单词中每个单词为语义规则词或非语义规则词;将若干单词中的非语义规则词替换为相应的语义成分符以生成指定泛化目标的指定抽象语义表达式;以及基于指定抽象语义表达式确定指定泛化目标对应的抽象语义类。
[0018]
在本发明某些实施例中,基于指定抽象语义表达式确定指定泛化目标对应的抽象语义类,包括:基于指定抽象语义表达式与多个抽象语义类中的每个抽象语义表达式计算多个第三相似度;以及确定多个第三相似度中数值最大且大于第三预设阈值的第三相似度对应的抽象语义表达式所属的抽象语义类为指定泛化目标对应的抽象语义类。
[0019]
在本发明某些实施例中,基于指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例,包括:获取指定泛化目标对应的抽象语义类中的多个抽象语义表达式;以及利用非语义规则词替换指定泛化目标对应的抽象语义类中的多个抽象语义表达式中对应的语义成分符以生成多个第三泛化实例。
[0020]
在本发明某些实施例中,自动泛化方法还包括:确定通用领域数据标注库中与指定泛化目标对应的第二标准问,通用领域数据标注库包括多个问题以及与多个问题中每个问题相关联的第二标准问;以及将指定泛化目标对应的第二标准问及指定泛化目标对应的第二标准问关联的问题作为多个第四泛化实例。
[0021]
在本发明某些实施例中,确定通用领域数据标注库中与指定泛化目标对应的第二标准问,包括:基于指定泛化目标与通用领域数据标注库中的多个第二标准问以及多个问题计算多个第四相似度;以及确定多个第四相似度中数值最大且大于第四预设阈值的第四相似度对应的第二标准问或问题关联的第二标准问为指定泛化目标对应的第二标准问。
[0022]
在本发明某些实施例中,自动泛化方法还包括:将人工确认后的多个第三泛化实例和/或人工确认后的多个第四泛化实例放入指定泛化目标的泛化库。
[0023]
根据本发明实施例的另一个方面,提供一种自动泛化装置,包括:获取模块,用于获取指定泛化目标,指定泛化目标为具体语句实例;确定模块,用于确定预置知识库中与指定泛化目标匹配的第一标准问,预置知识库中包括多个知识点,每个知识点对应一个第一标准问,第一标准问关联有多个具体语义表达式;以及泛化模块,用于基于指定泛化目标匹配的第一标准问及指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[0024]
根据本发明实施例的另一个方面,提供一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,处理器被用于执行存储在存储器上的计算机程序时实现如上述本发明实施例的一个方面提供的自动泛化方法。
[0025]
根据本发明实施例的另一个方面,提供一种计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现如上述本发明实施例的一个方面提供的自动泛化方法。
[0026]
本发明实施例提供了一种自动泛化方法及其装置,通过基于指定泛化目标生成多个泛化实例,可以提高不同用户提出的个性化问题与知识库中的问题匹配的几率,增强用户体验。
[0027]
附图简要说明
[0028]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]
图1是本发明一实施例提供的自动泛化方法的流程示意图。
[0030]
图2是本发明一实施例提供的匹配第一标准问的流程示意图。
[0031]
图3是本发明另一实施例提供的自动泛化方法的流程示意图。
[0032]
图4是本发明一实施例提供的确定抽象本体语义类的流程示意图。
[0033]
图5是本发明另一实施例提供的确定抽象本体语义类的流程示意图。
[0034]
图6是本发明一实施例提供的生成多个第二泛化实例的流程示意图。
[0035]
图7是本发明另一实施例提供的自动泛化方法的流程示意图。
[0036]
图8是本发明一实施例提供的确定抽象语义类的流程示意图。
[0037]
图9是本发明另一实施例提供的确定抽象语义类的流程示意图。
[0038]
图10是本发明一实施例提供的生成多个第三泛化实例的流程示意图。
[0039]
图11是本发明另一实施例提供的自动泛化方法的流程示意图。
[0040]
图12是本发明一实施例提供的确定第二标准问的流程示意图。
[0041]
图13是本发明另一实施例提供的自动泛化方法的流程示意图;
[0042]
图14是本发明一实施例提供的自动泛化装置的框图;
[0043]
图15是本发明的一个方面绘示的另一自动泛化装置的框图。
[0044]
实施本发明的方式
[0045]
为使本发明的目的、技术方案和优点更加清楚,以下将结合本发明实施例中的附图,通过具体实施方式,完整地描述本发明的技术方案。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下获得的所有其他实施例,均落入本发明的保护范围之内。
[0046]
在智能问答系统的人工交互过程中,对于同一个问题,当智能问答系统的知识库中存储有各种不同的问法时,不同用户的个性化问题与知识库中的问题匹配 的几率就会越大。因此对问题进行泛化以获得该问题的各种不同问法对于人机交互的准确率与客户满意度是至关重要的。
[0047]
有鉴于此,本发明实施例提出一种自动泛化方法及其装置,用于对人机交互系统中的知识点进行泛化以获得所述知识点的多个泛化结果,即用于基于指定泛化目标产生泛化实例。
[0048]
首先对于本发明实施例提供的各种可用于自动泛化的数据库进行简单示例性介绍。
[0049]
预置知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明实施例中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。
[0050]
用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够识别用户表达的是同一个意思。因此,对于智能语义识别而言,预置知识库里可以有标准问的相似问,该相似问与标准问表达形式有略微差异,但是表达相同的含义。
[0051]
更进一步,为了更准确、高效地识别用户问题,本发明实施例还基于相似问的表达形式提出了具体语义表达式的概念。
[0052]
具体语义表达式主要由词、词类以及他们的“或”关系构成,其核心依赖于“词类”,词类简单的理解即为一组有共性的词,这些词在语义上可以相似也可以不相似,这些词也可以被标注为重要或不重要。具体语义表达式与用户问句之间的关系可通过量化的值(相似度)来表示,同时这个量化的值与相似问句和用户问句之间的相似度是可以互相比较的。
[0053]
以下对具体语义表达式作简要介绍。
[0054]
具体语义表达式中的符号
[0055]
A.词类的表示([])
[0056]
为区分表达式中的词与词类,规定词类可以出现在方括号“[]”中,方括号中出现的词类一般为“狭义词类”,但是也可通过配置系统参数以支持“广 义词类”。
[0057]
下面是一些简单表达式的示例:
[0058]
[飞信][如何][开通]
[0059]
[介绍][彩信][业务]
[0060]
[飞信]的[登录][方法]
[0061]
[来电提醒][如何][收费]
[0062]
B.或关系的表示(|)
[0063]
在方括号中的词类可以通过“或”关系出现多次,这些“或”关系的词类会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是根据“或”的意义将具体语义表达式展开成多个简单的具体语义表达式的过程。如:[彩铃][开通]的[方法|步骤]可展开成“[彩铃][开通]的[步骤]”和“[彩铃][开通]的[方法]”两个简单的具体语义表达式。
[0064]
这类具体语义表达式的示例如下:
[0065]
[彩铃][开通]的[方法|步骤]
[0066]
[怎样][查询|知道][PUK码]
[0067]
[退订|撤销|关闭|停用][IP|17951][国内长途优惠包]
[0068]
[来电提醒][功能费|月租费|信息费|通信费]
[0069]
C.非必要的表示(?)
[0070]
在方括号中的词类可以在结尾加入“?”表示可出现也可以不出现,即非必要的关系,这种非必要关系的词类也同样会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是将具体语义表达式中含有非必要的词类(或词类的“或组合”)展开成包含和不包含这个词类的两个简单具体语义表达式的过程。如:[介绍][手机视频][军事栏目][内容][什么?]可展开成“[介绍][手机视频][军事栏目][内容]”和“[介绍][手机视频][军事栏目][内容][什么]”两个简单具体语义表达式。
[0071]
这类具体语义表达式的示例如下:
[0072]
[彩铃][取消]的[方法|步骤?]
[0073]
[介绍][手机视频][军事栏目][内容][什么?]
[0074]
[介绍][12580?][生活播报][品质生活版][免费][业务?]
[0075]
[怎样][开通][移动数据|流量|上网][100元][套餐?][短信]
[0076]
D.语义增强(&)
[0077]
在具体语义表达式的最左边出现“&”符号,可以在相似度计算中提高具体语义表达式内词类的权重。这类具体语义表达式往往可忽略用户问句中更多的词,匹配范围可以更广泛。
[0078]
这类具体语义表达式的示例如下:
[0079]
&[手机视频][优惠包|优惠]
[0080]
&[全网音乐盒][星光熠熠][1元][套餐]
[0081]
&[17951][移动IP电话][业务?]
[0082]
&[IP?][直通车][业务?]
[0083]
因此,对于智能语义识别而言,预置知识库里可以有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。
[0084]
进一步,为了更准确、高效地识别用户问题,本发明实施例还提出了抽象本体语义的概念。抽象本体语义是在具体语义表达式的基础上对表达式中的一个元素即本体进行了扩充。当一个抽象本体语义表达式被扩充的本体被赋予相应的具体的本体词后,该抽象本体语义表达式即可表达相应的具体语义。
[0085]
每一个抽象本体语义表达式包括本体语义成分符以及其它词。一个具体语义表达式一般包括多个不同词类,这些词类中表示该具体语义表达式的主体或客体成分的词或短语即是该具体语义表达式的本体词,一般是名词词性。具体语义表达式中除本体词以外的词即为其他词。将具体语义表达式的本体词采用本体语义成分符替代即可形成抽象本体语义表达式。
[0086]
由至少一个表达相同意思的抽象本体语义表达式构成的一类表达式的集合称为一个抽象本体语义类。
[0087]
下面是一个抽象本体语义类的抽象本体语义表达式的示例:
[0088]
a.[concept][需要|应该?][如何][才[可以]?][进行?][开通]
[0089]
b.{[concept]~[开通]}
[0090]
c.[concept][的?][开通][方法|方式|步骤?]
[0091]
d.[有哪些|有什么|有没有][通过|用|在][concept][开通][的?][方法]
[0092]
e.[如何][开通]~[concept]
[0093]
将上述本体语义成分符[concept]采用任意一个本体词进行替换即可得到用于表达相同意思的不同具体语义表达式,比如:
[0094]
微信
[0095]
a.[微信][需要|应该?][如何][才[可以]?][进行?][开通]
[0096]
b.{[微信]~[开通]}
[0097]
c.[微信][的?][开通][方法|方式|步骤?]
[0098]
d.[有哪些|有什么|有没有][通过|用|在][微信][开通][的?][方法]
[0099]
e.[如何][开通]~[微信]
[0100]
上述a、b、c、d、e五个抽象本体语义表达式中的符号“|”表示“或”关系,符号“?”表示该成分可有可无。
[0101]
对于上述每一个抽象本体语义表达式进行符号意义上的组合可以得到多个具体语句。以上述抽象语义表达式c为例,可展开为以下的具体表达语句:
[0102]
c1.微信的开通方法
[0103]
c2.微信的开通方式
[0104]
c3.微信的开通步骤
[0105]
c4.微信的开通
[0106]
c5.微信开通方法
[0107]
c6.微信开通方式
[0108]
c7.微信开通步骤
[0109]
c8.微信开通
[0110]
因此,对于智能语义识别而言,抽象本体语义库中可以包括多个抽象本体语义类,每个抽象本体语义类中的抽象本体语义表达式经过本体词的替换均可成为一个具体语句,同一抽象本体语义类形成的具体语句表达相同的意思。
[0111]
更进一步地,抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种各样的具体语义。
[0112]
每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由语义成分符表示,当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样的具体语义。
[0113]
抽象语义的语义成分符可包括:
[0114]
[concept]:表示主体或客体成分的词或短语。
[0115]
比如:“彩铃如何开通”中的“彩铃”
[0116]
[action]:表示动作成分的词或短语。
[0117]
比如:“信用卡如何办理”中的“办理”
[0118]
[attribute]:表示属性成分的词或短语。
[0119]
比如:“iphone有哪些颜色”中的“颜色”
[0120]
[adjective]:表示修饰成分的词或短语。
[0121]
比如:“冰箱哪个品牌便宜”中的“便宜”
[0122]
一些主要的抽象语义类别示例有:
[0123]
概念说明[concept]是什么
[0124]
属性构成[concept]有哪些[attribute]
[0125]
行为方式[concept]如何[action]
[0126]
行为地点[concept]在什么地方[action]
[0127]
行为原因[concept]为什么会[action]
[0128]
行为预测[concept]会不会[action]
[0129]
行为判断[concept]有没有[attribute]
[0130]
属性状况[concept]的[attribute]是不是[adjective]
[0131]
属性判断[concept]是不是有[attribute]
[0132]
属性原因[concept]的[attribute]为什么这么[adjective]
[0133]
概念比较[concept1]和[concept2]的区别在哪里
[0134]
属性比较[concept1]和[concept2]的[attribute]有什么不同之处
[0135]
问句在抽象语义层面的成分判断可以通过词性标注来做一般的评判,concept对应的词性为名词,action对应的词性为动词、attribute对应的词性为名词、adjective对应的是形容词。
[0136]
以类别为“行为方式”的抽象语义[concept]如何[action]为例,该类别的抽象语义集合下可包括多条抽象语义表达式:
[0137]
抽象语义类别:行为方式
[0138]
抽象语义表达式:
[0139]
a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]
[0140]
b.{[concept]~[action]}
[0141]
c.[concept]<的?>[action]<方法|方式|步骤?>
[0142]
d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]
[0143]
e.[如何][action]~[concept]
[0144]
上述a、b、c、d、e五个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别的。符号“|”表示“或”关系,符号“?”表示该成分可有可无。以上述抽象语义表达式c为例,可展开为以下的抽象语义表达:
[0145]
c1.[concept]<的>[action]<方法>
[0146]
c2.[concept]<的>[action]<方式>
[0147]
c3.[concept]<的>[action]<步骤>
[0148]
c4.[concept]<的>[action]
[0149]
c5.[concept][action]<方法>
[0150]
c6.[concept][action]<方式>
[0151]
c7.[concept][action]<步骤>
[0152]
c8.[concept][action]
[0153]
在上述抽象语义表达式中,除了作为缺失语义成分的抽象的语义成分符之外,其他出现的具体的词如“如何”、“应该”、“方法”等等,这些词可以在抽象语义规则中被使用,所以可统称为语义规则词。
[0154]
将上述语义成分符分别替换成对应的非语义规则词类中的具体词,即可得到一系列具体的表达语句。
[0155]
因此,对于智能语义识别而言,抽象语义库中可以包括多个抽象语义类,每个抽象语义类中的抽象语义表达式经过非语义规则词类中的具体词的替换均可成为一个具体语义表达式。
[0156]
再进一步地,对于一些无法通过上述表达式进行归纳总结的“问-答”或是来不及进行归纳总结的“问-答”生成通用领域数据标注库。将通用领域标注库中的问题与其对应的答案进行“一对一”标注,当然,不同的问题可能会对应于同一个答案,因此通用领域标注库中的对应于同一个答案的问题实际上表达相同的意思,该些对应于同一个答案中的其中一个问题可作为对应该答案的其它问题的标准问。
[0157]
为提高各种不同数据库中的用户问题和数据库中存储的问题的匹配几率,根据本发明的一个方面,提供一种自动泛化方法100,该自动泛化方法100用于基于指定泛化目标从预置知识库中产生多个泛化实例,即基于同一个问题可以产生各种不同的表达语句,该些语句表达相同的语义。图1的方法可以由电子设备,例如,服务器,执行。如图1所示,自动泛化方法100包括以下内容。
[0158]
S110:获取指定泛化目标。
[0159]
指定泛化目标为一具体语句实例,比如用户手动输入的一具体的表达语句或是批量输入的多个泛化目标中的一个,或是智能问答系统的使用者手动输入的一个具体问题等等。所述“获取”可以是从输入端接收,也可以是从内部其它库中调用,甚至可以是从网络数据中爬取等等。
[0160]
S120:确定预置知识库中与指定泛化目标匹配的第一标准问。
[0161]
该预置知识库可以是一个包括不同领域的不同知识点的预置知识库,也可以是不同领域具有一个预置知识库,基于不同的知识问答系统采用不同的预置知识库。预置知识库中包括多个知识点,每个知识点对应一个第一标准问,第一标准问关联有多个具体语义表达式来表示该第一标准问。
[0162]
S130:基于指定泛化目标匹配的第一标准问及指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[0163]
进一步具体地,在一实施例中,如图2所示,该步骤S120可以包括以下内容。
[0164]
S121:基于指定泛化目标与预置知识库中的每个第一标准问以及第一标准 问关联的多个具体语义表达式计算多个第一相似度。
[0165]
此处的语义相似度是指指定泛化目标与预置知识库中的问句基于字与词语上的匹配程度和/或语义上的符合程度。具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
[0166]
S122:确定多个第一相似度中数值最大且大于第一预设阈值的第一相似度对应的第一标准问或具体语义表达式关联的第一标准问为指定泛化目标匹配的第一标准问。
[0167]
具体地,响应于指定泛化目标与一第一标准问或一具体语义表达式的相似度最大且该相似度大于第一预设阈值,判断该第一标准问或该具体语义表达式关联的第一标准问为指定泛化目标匹配的第一标准问。
[0168]
可以理解,与该指定泛化目标的相似度最大的第一标准问或具体语义表达式是与该指定泛化目标语义最相近的第一标准问或具体语义表达式,若该指定泛化目标存在与其匹配成功的第一标准问或具体语义表达式,则可以推测是与该指定泛化目标的相似度最大的第一标准问或具体语义表达式。
[0169]
当该与指定泛化目标的相似度最大的第一标准问或具体语义表达式满足匹配成功的相似度阈值要求时,则该第一标准问或具体语义表达式关联的第一标准问即是该指定泛化目标匹配的第一标准问。
[0170]
在本发明另一实施例中,提供一自动泛化方法200,用于基于抽象本体语义库为指定泛化目标生成多个泛化实例。如图3所示,该自动泛化方法200包括以下内容。
[0171]
S110:获取指定泛化目标。
[0172]
指定泛化目标为一具体语句实例。
[0173]
S220:确定抽象本体语义库中与指定泛化目标对应的抽象本体语义类。
[0174]
抽象本体语义库包括多个抽象本体语义类,每个抽象本体语义类包括缺失本体的多个抽象本体语义表达式。
[0175]
S230:基于指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例。
[0176]
进一步地,在一实施例中,如图4所示,步骤S220可具体包括以下内容。
[0177]
S221:对指定泛化目标进行分词处理,得到指定泛化目标中的本体词。
[0178]
分词处理是将该指定泛化目标分成若干单独词,比如:“如何开通微信” 可以分成:“如何”、“开通”、“微信”。通过词性、句中的成分识别或语义的识别能够得到构成该指定泛化目标的本体词,比如:如何开通微信中的“微信”。所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。
[0179]
S222:将指定泛化目标中的本体词用本体语义成分符代替以生成指定泛化目标的指定抽象本体语义表达式。
[0180]
比如将“如何开通微信”中的“微信”用[concept]替代,可以得到“如何开通微信”的抽象本体语义表达式“如何开通[concept]”,该抽象本体语义表达式可称为指定抽象本体语义表达式。
[0181]
S223:基于指定泛化目标的抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类。
[0182]
更进一步地,在一实施例中,如图5所示,该步骤S223可以包括以下内容。
[0183]
S2231:基于指定抽象本体语义表达式与多个抽象本体语义库中的每个抽象本体语义表达式计算多个第二相似度。
[0184]
具体地,基于指定泛化目标的指定抽象本体语义表达式与多个抽象本体语义库中的所有抽象本体语义类中的每一抽象本体语义表达式计算相似度。
[0185]
此处的语义相似度是指指定泛化目标与该抽象本体语义库中的抽象本体语义表达式基于字与词语上的匹配程度和/或语义上的符合程度,还可以包括本体语义成分符在句中的位置等。
[0186]
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
[0187]
S2232:确定多个第二相似度中数值最大且大于第二预设阈值的第二相似度对应的抽象本体语义表达式所属的抽象本体语义类为指定泛化目标对应的抽象本体语义类。
[0188]
具体地,响应于指定泛化目标的指定抽象本体语义表达式与一抽象本体语义表达式(位于抽象本体语义库中)的相似度最大且该相似度大于第二预设阈值,确定该抽象本体语义表达式所属的抽象本体语义类为指定泛化目标对应的抽象本体语义类。
[0189]
比如:“如何开通[concept]”与上述抽象本体语义库介绍内容中的抽象本体 语义类中的抽象本体语义表达式“e.[如何][开通]~[concept]”的相似度为100%,大于第二预设阈值(假设为88%),则“e.[如何][开通]~[concept]”所属的抽象本体语义类即为“如何开通微信”对应的抽象本体语义类。
[0190]
进一步地,在一实施例中,如图6所示,步骤S230可以包括以下内容。
[0191]
S231:获取指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式。
[0192]
比如,指定泛化目标为“如何开通微信”对应的抽象本体语义类中包括抽象本体语义表达式a、b、c、d和e,获取该些抽象本体语义表达式a、b、c、d和e。
[0193]
S232:将多个抽象本体语义表达式中的本体语义成分符替换为本体词以生成多个第二泛化实例。
[0194]
比如,在指定泛化目标为“如何开通微信”的示例中,将本体词“微信”替换该些抽象本体语义表达式a、b、c、d和e中的本体语义成分符,以获得多个具体语义表达式,将该些具体语义表达式中的符号进行不同的组合即可得到多个泛化实例(即,第二泛化实例),如上文抽象本体语义库的介绍部分所述,抽象本体语义表达式c可以生成8个泛化实例。
[0195]
在本发明另一实施例中,提供一自动泛化方法300,用于基于抽象语义库为指定泛化目标生成泛化实例。如图7所示,该自动泛化方法300包括以下内容。
[0196]
S110:获取指定泛化目标。
[0197]
指定泛化目标为一具体语句实例。
[0198]
S320:确定抽象语义库中与指定泛化目标对应的抽象语义类。
[0199]
抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,每个抽象语义表达式由缺失语义成分和语义规则词构成。
[0200]
S330:基于指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例。
[0201]
在一实施例中,如图8所示,步骤S320可以包括以下内容。
[0202]
S321:对指定泛化目标执行分词以获得若干单词。
[0203]
该若干单词分为语义规则词或非语义规则词。
[0204]
比如,以“微信的开通方式”为指定泛化目标示例,对指定泛化目标进行分词以获得多个单独词:“微信”“的”“开通”“方式”,对该些单独词进行识别以将每一单独词识别为语义规则词或非语义规则词,语义规则词属于抽象语义表达式用到的词。
[0205]
具体而言,例如可在语义规则词库中查找每个单独词,语义规则词库包括 属于抽象语义表达式用到的所有词语的集合。若某一个单独词存在于语义规则词库中则将该单独词识别为语义规则词,否则识别为非语义规则词。又如:还可以用词类判断,如介词、助词等词性。若某一个单词为介词或助词,则该单词识别为语义规则词,否则识别为非语义规则词。
[0206]
S322:将该若干单词中的非语义规则词替换为相应的语义成分符以生成指定泛化目标的指定抽象语义表达式。
[0207]
至少基于每个非语义规则词的词性信息将非语义规则词替换为相应语义成分符以作为指定抽象语义表达式的缺失语义成分。
[0208]
例如,词性被标记为名词的非语义规则词可用表示主体或客体成份的词或短语的语义成分符concept替换,词性被标记为动词的非语义规则词可用表示动作成分的词或短语的语义成分符action来替换,词性被标记为形容词的非语义规则词可用表示修饰成分的词或短语的语义成分符adjective来替换,词性被标记为名词的非语义规则词还可用表示属性成分的词或短语的语义成分符attribute替换。
[0209]
此外,还基于语料的上下文将非语义规则词替换为相应语义成分符以作为指定泛化目标的指定抽象语义表达式的缺失语义成分。比如,“微信的开通方式”中的“微信”的词性为名词,因此替换为concept,“开通”的词性为动词,因此替换为action,因而“微信的开通方式”对应的指定抽象语义表达式为“[concept]<的>[action]<方式>”。
[0210]
S323:基于指定抽象语义表达式确定指定泛化目标对应的抽象语义类。
[0211]
更进一步地,在一实施例中,如图9所示,步骤S323包括以下内容。
[0212]
S3231:基于指定抽象语义表达式与多个抽象语义类中的每个抽象语义表达式计算多个第三相似度。
[0213]
具体地,计算指定泛化目标的指定抽象语义表达式与抽象语义库中的所有抽象语义类中的每一抽象语义表达式的相似度。
[0214]
此处的语义相似度是指指定泛化目标与该抽象语义库中的抽象语义表达式基于语义规则词上的匹配程度和/或语义上的符合程度,还可以包括语义成分符的性质和在句中的位置等。
[0215]
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
[0216]
S3232:确定多个第三相似度中数值最大且大于第三预设阈值的第三相似度对应的抽象语义表达式所属的抽象语义类为指定泛化目标对应的抽象语义类。
[0217]
具体地,响应于指定泛化目标的指定抽象语义表达式与一抽象语义表达式(位于抽象语义库中)的相似度最大且该相似度大于第三预设阈值,确定抽象语义表达式对应的抽象语义类为指定泛化目标对应的抽象语义类。
[0218]
比如,“微信的开通方式”对应的指定抽象语义表达式“[concept]<的>[action]<方式>”与行为方式抽象语义类中的抽象语义表达式c相似度为100%,因此显然大于第三预设阈值,将行为方式的抽象语义类确定为指定泛化目标“微信的开通方式”对应的抽象语义类。
[0219]
更进一步地,在一实施例中,如图10所示,步骤S330包括以下内容。
[0220]
S331:获取指定泛化目标对应的抽象语义类中的多个抽象语义表达式。
[0221]
比如,在以“微信的开通方式”为指定泛化目标的示例中,如前文抽象语义库的介绍内容所述,行为方式的抽象语义类包括抽象语义表达式a、b、c、d和e,获取该些抽象语义表达式a、b、c、d和e。
[0222]
S332:利用非语义规则词替换多个抽象语义表达式中对应的语义成分符以生成多个第三泛化实例。
[0223]
比如,在指定泛化目标为“微信的开通方式”的示例中,将名词“微信”替换该些抽象本体语义表达式a、b、c、d和e中的语义成分符[concept],将动词“开通”替换该些抽象本体语义表达式a、b、c、d和e中的语义成分符[action],以获得多个具体语义表达式。将该些具体语义表达式中的符号进行不同的组合即可得到多个泛化实例(即,第三泛化实例)。如上文抽象语义库的介绍部分所述,抽象语义表达式c可以生成8个泛化实例。
[0224]
在本发明另一实施例中,提供一种自动泛化方法400,用于基于通用领域数据标注库为指定泛化目标生成多个泛化实例。如图11所示,自动泛化方法400包括以下内容。
[0225]
S110:获取指定泛化目标。
[0226]
指定泛化目标为一具体语句实例。
[0227]
S420:确定通用领域数据标注库中与指定泛化目标对应的第二标准问。
[0228]
通用领域数据标注库包括多个问题以及与多个问题中每个问题相关联的第二标准问。
[0229]
可以理解,通用领域数据标注库中对应于同一个答案的多个问题通常是差异较大,无法进行归纳总结的相同语义的语句,类似于一具体语义表达式泛化出的具体语句仅仅是该具体语义表达式本身。
[0230]
S430:将指定泛化目标对应的第二标准问及指定泛化目标对应的第二标准 问关联的问题作为多个第四泛化实例。
[0231]
进一步具体地,在一实施例中,如图12所示,该步骤S420包括以下内容。
[0232]
S421:基于指定泛化目标与通用领域数据标注库中的多个第二标准问以及多个问题计算多个第四相似度。
[0233]
此处的语义相似度是指指定泛化目标与该通用领域数据标注库中的问题基于字与词语上的匹配程度和/或语义上的符合程度。
[0234]
具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
[0235]
比如:通用领域数据标注库中对应于一个答案A的问题包括Q1、Q2和Q3,其中第二标准问为Q1,将指定泛化目标Q分别对应该答案A的所有问题Q1、Q2和Q3计算相似度。
[0236]
S422:确定多个第四相似度中数值最大且大于第四预设阈值的第四相似度对应的第二标准问或问题关联的第二标准问为指定泛化目标对应的第二标准问。
[0237]
具体地,响应于指定泛化目标与一第二标准问或一问题的相似度最大且该相似度大于第四预设阈值,确定该第二标准问或该问题相关联的第二标准问为指定泛化目标对应的第二标准问。
[0238]
假设该指定泛化目标Q与问题Q2的相似度最大且大于第四预设阈值,则该问题Q2对应的第二标准问Q1即为该指定泛化目标对应的第二标准问。则步骤S430中,将该第二标准问Q1及其关联的问题Q2、Q3作为该指定泛化目标Q的泛化实例(即,第四泛化实例)。
[0239]
可以理解,通用领域数据标注库中的第二标准问仅仅是一个“代号”,实际上可以存在设定第二标准问或不存在设定第二标准问的过程。
[0240]
上述自动泛化方法100~400中,泛化结果的准确度存在差异,因此基于自动泛化方法100生成的第一泛化实例和/或自动泛化方法200生成的第二泛化实例可以直接放入指定泛化目标的泛化库以作为指定泛化目标的扩展问。基于自动泛化方法300生成的第三泛化实例和/或自动泛化方法400生成的第四泛化实例可以经过人工确认,将人工确认后的泛化实例放入指定泛化目标的泛化库。
[0241]
可以理解,上述自动泛化方法100~400可以择一进行或采用不同组合进行对同一指定泛化目标的泛化。
[0242]
较优地,如图13所示,可以先将指定泛化目标通过自动泛化方法100进行 泛化,当该指定泛化目标无法与预置知识库中的知识匹配成功(条件A)时,用自动泛化方法200进行泛化。当该指定泛化目标无法与抽象本体语义库中的任一抽象本体语义类匹配成功(条件B)时,采用自动泛化方法300对指定泛化目标进行泛化。当指定泛化目标无法与抽象语义库中的任一抽象语义类匹配成功(条件C)时,采用自动泛化方法400对指定泛化目标进行泛化。可以理解,图13中各个步骤的具体内容可以参见上述图1至图12实施例中的描述,为避免重复,此处不再赘述。
[0243]
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生,或一些动作可与来自本文中图示和描述的其他动作并发地发生,或一些动作可与本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
[0244]
根据本发明的另一个方面,提供一种自动泛化装置,用于基于指定泛化目标生成泛化实例。
[0245]
可以理解,在自动泛化装置的描述过程中可能涉及一些上述已涉及过的概念或定义,在此不再赘述,本发明中的一些相同概念或定义除特别说明或具体实施例中的特定指代外均具有相同含义。
[0246]
根据本发明一实施例,如图14所示,该自动泛化装置600包括获取模块610、确定模块620以及泛化模块630。在本实施例中,该自动泛化装置600的工作模式为:自动泛化装置600可基于预置知识库生成泛化实例。
[0247]
获取模块610用于获取指定泛化目标,指定泛化目标为具体语句实例。确定模块620用于确定预置知识库中与指定泛化目标匹配的第一标准问,预置知识库中包括多个知识点,每个知识点对应一个第一标准问,第一标准问关联有多个具体语义表达式。泛化模块630用于基于指定泛化目标匹配的第一标准问及指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[0248]
可以理解,获取模块610可以是键盘、触摸屏等形式的输入装置,或是具有主动读取功能的存储器,或是处理器等等可以获取数据的装置。该“获取”可以是从自动泛化装置600外部进行获取,也可以是从自动泛化装置600内部进行获取。
[0249]
确定模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于指定泛化目标匹配一预置知识库中的一第一标准问。
[0250]
泛化模块630与确定模块620耦接,用于获取该确定模块620为该指定泛 化目标匹配成功的第一标准问,并基于指定泛化目标匹配的第一标准问及其关联的多个具体语义表达式生成多个第一泛化实例。
[0251]
在一实施例中,该确定模块620用于:基于指定泛化目标与预置知识库中的每个第一标准问以及第一标准问关联的多个具体语义表达式计算多个第一相似度;以及确定多个第一相似度中数值最大且大于第一预设阈值的第一相似度对应的第一标准问或具体语义表达式关联的第一标准问为指定泛化目标匹配的第一标准问。
[0252]
可以理解,此处的相似度是指指定泛化目标与预置知识库中的问句基于字与词语上的匹配程度和/或语义上的符合程度。具体的相似度计算方法可以采用以下一种或多种方式的结合:基于空间向量空间模型(Vector Space Model,VSM)的计算方法、基于隐形语义索引模型(Latent Semantic Indexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解,该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。
[0253]
根据本发明一实施例,自动泛化装置600的工作模式为:自动泛化装置600可基于通用领域数据标注库来产生多个泛化实例。
[0254]
获取模块610用于获取指定泛化目标。确定模块620确定通用领域数据标注库中与指定泛化目标对应的第二标准问,通用领域数据标注库包括多个问题以及与多个问题中每个问题相关联的第二标准问。泛化模块630用于将指定泛化目标对应的第二标准问及指定泛化目标对应的第二标准问关联的问题作为多个第四泛化实例。
[0255]
确定模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于指定泛化目标匹配一通用领域数据标注库中的一第二标准问。
[0256]
泛化模块630与确定模块620耦接,用于获取该确定模块620为该指定泛化目标匹配成功的第二标准问,并基于指定泛化目标匹配的第二标准问及其关联的问题生成第四泛化实例。
[0257]
在一实施例中,该确定模块620用于:基于指定泛化目标与通用领域数据标注库中的多个第二标准问以及多个问题计算多个第四相似度;以及确定多个第四相似度中数值最大且大于第四预设阈值的第四相似度对应的第二标准问或问题关联的第二标准问为指定泛化目标对应的第二标准问。
[0258]
该确定模块620用于计算该指定泛化目标与通用领域数据标注库中的所有标准问的相似度以及所有标准问关联的问题的相似度。
[0259]
可以理解,此处的相似度是指指定泛化目标与通用领域数据标注库中的问 句基于字与词语上的匹配程度和/或语义上的符合程度。
[0260]
根据本发明一实施例,自动泛化装置600的工作模式为:自动泛化装置600可基于抽象本体语义库来产生多个泛化实例。
[0261]
获取模块610用于获取指定泛化目标,指定泛化目标为具体语句实例。确定模块620用于确定抽象本体语义库中与指定泛化目标对应的抽象本体语义类,抽象本体语义库包括多个抽象本体语义类,每个抽象本体语义类包括多个抽象本体语义表达式。泛化模块630用于基于指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例。
[0262]
该确定模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于抽象本体语义库匹配指定泛化目标对应的抽象本体语义类。
[0263]
该泛化模块630与确定模块620耦接,用于获取该确定模块620为该指定泛化目标匹配成功的抽象本体语义类,并基于指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例。
[0264]
在一实施例中,该确定模块620用于:对指定泛化目标进行分词处理,得到指定泛化目标中的本体词;将指定泛化目标中的本体词用本体语义成分符代替以生成指定泛化目标的指定抽象本体语义表达式;以及基于指定抽象本体语义表达式确定指定泛化目标对应的抽象本体语义类。
[0265]
在一实施例中,该确定模块620用于:基于指定抽象本体语义表达式与多个抽象本体语义类中的每个抽象本体语义表达式计算多个第二相似度;以及确定多个第二相似度中数值最大且大于第二预设阈值的第二相似度对应的抽象本体语义表达式所属的抽象本体语义类为指定泛化目标对应的抽象本体语义类。
[0266]
在一实施例中,该泛化模块630用于:获取该指定泛化目标相对应的抽象本体语义类中的多个抽象本体语义表达式并将该多个抽象本体语义表达式中的本体语义成分符替换为该指定泛化目标的本体词以生成多个第二泛化实例。
[0267]
根据本发明一实施例,自动泛化装置600的工作模式为:自动泛化装置600可基于抽象语义库生成泛化实例。
[0268]
获取模块610用于获取指定泛化目标。确定模块620用于确定抽象语义库中与指定泛化目标对应的抽象语义类,抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,每个抽象语义表达式由缺失语义成分和语义规则词构成。泛化模块630用于基于指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例。
[0269]
该确定模块620与该获取模块610耦接,用于从获取模块610接收该获取模块610获取的指定泛化目标,并基于抽象语义库匹配指定泛化目标对应的抽 象语义类。
[0270]
该泛化模块630与确定模块620耦接,用于获取该确定模块620为该指定泛化目标匹配成功的抽象语义类,并基于指定泛化目标相对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例。
[0271]
在一实施例中,该确定模块620用于:对指定泛化目标执行分词以获得若干单词,若干单词中每个单词为语义规则词或非语义规则词;将若干单词中的非语义规则词替换为相应的语义成分符以生成指定泛化目标的指定抽象语义表达式;以及基于指定抽象语义表达式确定指定泛化目标对应的抽象语义类。
[0272]
在一实施例中,该匹配模块620用于:基于指定抽象语义表达式与多个抽象语义类中的每个抽象语义表达式计算多个第三相似度;以及确定多个第三相似度中数值最大且大于第三预设阈值的第三相似度对应的抽象语义表达式所属的抽象语义类为指定泛化目标对应的抽象语义类。
[0273]
在一实施例中,该泛化模块630用于:获取指定泛化目标对应的抽象语义类中的多个抽象语义表达式;以及利用非语义规则词替换指定泛化目标对应的抽象语义类中的多个抽象语义表达式中对应的语义成分符以生成多个第三泛化实例。
[0274]
上述多个实施例中是基于自动泛化装置的多种工作模式分开阐述的,因此自动泛化装置在基于不同的泛化方法进行泛化时涉及到的模块有所不同,即使涉及到相同的模块也可能涉及模块中的不同工作单元,本领域的技术人员可以理解,实际上在每一实施例中的自动泛化装置可以是专用于该工作模式下的自动泛化装置,即该自动泛化装置可以是仅包括该实施例中阐述的工作模块、工作单元以及工作块;也可以还包括多个组合的工作模式下的其它工作模块或工作单元的自动泛化装置,在该种情况下,该些工作模式下的名称相同的工作模块或单元可以是重复存在或共用的。
[0275]
比如,在一实施例中,自动泛化装置600的确定模块620在指定泛化目标无法与预置知识库中的一第一标准问匹配时,该确定模块620可基于抽象本体语义库来泛化指定泛化目标;当指定泛化目标无法与抽象本体语义库中的一抽象本体语义表达式匹配时,该确定模块620可基于抽象语义库来泛化指定泛化目标;当指定泛化目标无法与抽象语义库中的一抽象语义类中的一抽象语义表达式匹配时,确定模块620可基于通用领域数据标注库来泛化指定泛化目标。更优地,当该指定泛化目标无法与通用领域数据标注库中的问题或第二标准问匹配时,该确定模块620还可以通过爬取网络数据来泛化指定泛化目标。
[0276]
在该些情况下,自动泛化装置600的其它工作模块、工作单元或工作块的工作模式适应性改变。
[0277]
在又一实施例中,该自动泛化装置600还可以包括存储模块640,用于将多个第一泛化实例、多个第二泛化实例、人工确认后的多个第三泛化实例和/或人工确认后的多个第四泛化实例放入指定泛化目标的泛化库。
[0278]
具体地,存储模块640用于存储该些预置知识库、抽象本体语义库、抽象语义库、通用领域数据标注库和/或泛化库,该泛化库是用于存储泛化模块生成的泛化实例的数据库。
[0279]
应当理解,上述实施例中的获取模块610、确定模块620、泛化模块630以及存储模块640的具体功能和工作过程可以参考上述自动泛化方法100~400中的描述,为避免重复,此处不再赘述。
[0280]
根据本发明的又一个方面,提供一种电子设备700,如图15所示,该电子设备700包括存储器710、处理器720以及存储在存储器710上的计算机程序。该处理器720被用于执行存储在该存储器710上的计算机程序时实现上述任一自动泛化方法的步骤。
[0281]
根据本发明的又一个方面,提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被执行时实现如上述任一自动泛化方法的步骤。
[0282]
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
[0283]
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
[0284]
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
[0285]
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
[0286]
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
[0287]
需要说明的是,在本发明的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0288]
提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解,本发明的保护范围应当以所附权利要求书为准,而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内,可以对各实施例进行各种变动和修改,这些变动和修改也落在本发明的保护范围之内。

权利要求书

[权利要求 1]
一种自动泛化方法,其特征在于,包括: 获取指定泛化目标,所述指定泛化目标为具体语句实例; 确定预置知识库中与所述指定泛化目标匹配的第一标准问,所述预置知识库中包括多个知识点,每个知识点对应一个第一标准问,所述第一标准问关联有多个具体语义表达式;以及 基于所述指定泛化目标匹配的第一标准问及所述指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[权利要求 2]
如权利要求1所述的自动泛化方法,其特征在于,所述确定预置知识库中与所述指定泛化目标匹配的第一标准问,包括: 基于所述指定泛化目标与所述预置知识库中的每个第一标准问以及所述第一标准问关联的多个具体语义表达式计算多个第一相似度;以及 确定所述多个第一相似度中数值最大且大于第一预设阈值的第一相似度对应的第一标准问或具体语义表达式关联的第一标准问为所述指定泛化目标匹配的第一标准问。
[权利要求 3]
如权利要求1或2所述的自动泛化方法,其特征在于,还包括: 确定抽象本体语义库中与所述指定泛化目标对应的抽象本体语义类,所述抽象本体语义库包括多个抽象本体语义类,每个抽象本体语义类包括多个抽象本体语义表达式;以及 基于所述指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例。
[权利要求 4]
如权利要求3所述的自动泛化方法,其特征在于,所述确定抽象本体语义库中与所述指定泛化目标对应的抽象本体语义类,包括: 对所述指定泛化目标进行分词处理,得到所述指定泛化目标中的本体词; 将所述指定泛化目标中的所述本体词用本体语义成分符代替以生成所述指定泛化目标的指定抽象本体语义表达式;以及 基于所述指定抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类。
[权利要求 5]
如权利要求4所述的自动泛化方法,其特征在于,所述基于所述指定抽象本体语义表达式确定所述指定泛化目标对应的抽象本体语义类,包括: 基于所述指定抽象本体语义表达式与所述多个抽象本体语义类中的每个抽象本体语义表达式计算多个第二相似度;以及 确定所述多个第二相似度中数值最大且大于第二预设阈值的第二相似度对应的抽象本体语义表达式所属的抽象本体语义类为所述指定泛化目标对应的抽象本体语义类。
[权利要求 6]
如权利要求4或5所述的自动泛化方法,其特征在于,所述基于所述指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式生成多个第二泛化实例,包括: 获取所述指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式;以及 将所述指定泛化目标对应的抽象本体语义类中的多个抽象本体语义表达式中的本体语义成分符替换为所述本体词以生成所述多个第二泛化实例。
[权利要求 7]
如权利要求1或2所述的自动泛化方法,其特征在于,还包括: 将所述多个第一泛化实例放入所述指定泛化目标的泛化库。
[权利要求 8]
如权利要求3至6中任一项所述的自动泛化方法,其特征在于,还包括: 将所述多个第一泛化实例和/或所述多个第二泛化实例放入所述指定泛化目标的泛化库。
[权利要求 9]
如权利要求1至8中任一项所述的自动泛化方法,其特征在于,还包括: 确定抽象语义库中与所述指定泛化目标对应的抽象语义类,所述抽象语义库包括多个抽象语义类,每个抽象语义类包括多个抽象语义表达式,每个抽象语义表达式由缺失语义成分和语义规则词构成;以及 基于所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例。
[权利要求 10]
如权利要求9所述的自动泛化方法,其特征在于,所述确定抽象语义库中与所述指定泛化目标对应的抽象语义类,包括: 对所述指定泛化目标执行分词以获得若干单词,所述若干单词中每个单词为语义规则词或非语义规则词; 将所述若干单词中的非语义规则词替换为相应的语义成分符以生成所述指定泛化目标的指定抽象语义表达式;以及 基于所述指定抽象语义表达式确定所述指定泛化目标对应的抽象语义类。
[权利要求 11]
如权利要求10所述的自动泛化方法,其特征在于,所述基于所述指定抽象语义表达式确定所述指定泛化目标对应的抽象语义类,包括: 基于所述指定抽象语义表达式与所述多个抽象语义类中的每个抽象语义表达式计算多个第三相似度;以及 确定所述多个第三相似度中数值最大且大于第三预设阈值的第三相似度对应的抽象语义表达式所属的抽象语义类为所述指定泛化目标对应的抽象语义类。
[权利要求 12]
如权利要求10或11所述的自动泛化方法,其特征在于,所述基于所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式生成多个第三泛化实例,包括: 获取所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式;以及 利用所述非语义规则词替换所述指定泛化目标对应的抽象语义类中的多个抽象语义表达式中对应的语义成分符以生成所述多个第三泛化实例。
[权利要求 13]
如权利要求1至12中任一项所述的自动泛化方法,其特征在于,还包括: 确定通用领域数据标注库中与所述指定泛化目标对应的第二标准问,所述通用领域数据标注库包括多个问题以及与所述多个问题中每个问题相关联的第二标准问;以及 将所述指定泛化目标对应的第二标准问及所述指定泛化目标对应的第二标准问关联的问题作为多个第四泛化实例。
[权利要求 14]
如权利要求13所述的自动泛化方法,其特征在于,所述确定通用领域数据标注库中与所述指定泛化目标对应的第二标准问,包括: 基于所述指定泛化目标与所述通用领域数据标注库中的多个第二标准问以及所述多个问题计算多个第四相似度;以及 确定所述多个第四相似度中数值最大且大于第四预设阈值的第四相似度对应的第二标准问或问题关联的第二标准问为所述指定泛化目标对应的第二标准问。
[权利要求 15]
如权利要求9至12中任一项所述的自动泛化方法,其特征在于,还包括: 将人工确认后的所述多个第三泛化实例放入所述指定泛化目标的泛化库。
[权利要求 16]
如权利要求13或14所述的自动泛化方法,其特征在于,还包括: 将人工确认后的所述多个第三泛化实例和/或人工确认后的所述多个第四泛化实例放入所述指定泛化目标的泛化库。
[权利要求 17]
一种自动泛化装置,其特征在于,包括: 获取模块,用于获取指定泛化目标,所述指定泛化目标为具体语句实例; 确定模块,用于确定预置知识库中与所述指定泛化目标匹配的第一标准问,所述预置知识库中包括多个知识点,每个知识点对应一个第一标准问,所述第一标准问关联有多个具体语义表达式;以及 泛化模块,用于基于所述指定泛化目标匹配的第一标准问及所述指定泛化目标匹配的第一标准问关联的多个具体语义表达式生成多个第一泛化实例。
[权利要求 18]
一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其特征在于,所述处理器被用于执行存储在所述存储器上的计算机程序时实现如权利要求1至16中任一项所述的自动泛化方法。
[权利要求 19]
一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至16中任一项所述的自动泛化方法。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]  
[ 图 6]  
[ 图 7]  
[ 图 8]  
[ 图 9]  
[ 图 10]  
[ 图 11]  
[ 图 12]  
[ 图 13]  
[ 图 14]  
[ 图 15]