Suche in nationalen und internationalen Patentsammlungen
Einige Inhalte dieser Anwendung sind derzeit nicht verfügbar.
Wenn diese Situation weiterhin besteht, kontaktieren Sie uns bitte unterFeedback&Kontakt
1. (CN1823334) Search engine method and apparatus
Anmerkung: Text basiert auf automatischer optischer Zeichenerkennung (OCR). Verwenden Sie bitte aus rechtlichen Gründen die PDF-Version.
搜索引擎方法及装置


发明领域及背景
本发明涉及搜索引擎,更具体、但非排他地涉及与包括连网数据 库在内的数据库和信息存储器结合使用的搜索引擎。
信息检索(IR)系统以及与其关联的搜索引擎(SE)自六十年代初期 已经开始研究和开发。但是,随着因特网和内联网世界的出现以及通 过这些途径可得到的巨大数量的信息和服务,它们所起的作用、它们 的重要性以及它们对计算机化信息系统的有效性的重要影响显著增 加。搜索引擎如何在因特网上使用的典型实例包括以下方面:
-研究者采用诸如Google、AltaVista、Lycos等常见SE搜索在 因特网上某个位置估计可获得的关于非常具体的主题、例如太阳能或 英国民歌的信息。
-消费者希望通过诸如Yahoo之类的电子经销商的门户站点或 者通过特定经销商网站购买诸如衬衣、数字照相机或书籍之类的具体 产品。消费者依靠门户站点或网站SE准确查找所请求的产品。
-大企业中的雇员寻找大企业文本仓库中的特定数据,依靠企业 特定的搜索引擎,立刻为他带来正是他所想的内容。
-显然,这些完全不同的需求由于各种程度的用户复杂性而混 合。另一方面,寻找预期信息时的用户坚持以及对接收不完整或错误 结果的反应只能猜测。可是,很有可能在上述实例中,由于当今SE 固有的不足,用户往往变得很丧气并最终对信息检索能力产生否定态 度,甚至可能完全停止使用信息检索,随之而产生的缺少使用可能间 接造成数据库的衰退或萎缩,使它不再值得进行维护。
作为它们支持上述成功操作的关键,当前大部分可用SE遭遇到 精确度或准确度、覆盖率和焦点的尖锐问题,这些问题严重妨碍它们 的性能以及设计它们支持的操作的充分起作用。搜索一般把输入查询 当作关键字列表来处理,并搜索与关键字列表的最佳匹配,而没有明 显地考虑预期意义或者意义之间的关系。因此,众所周知的搜索引擎 将识别诸如“San Francisco”和“New York”之类的某些众所周知的 单词对应当作为单个检索词来处理的能力视为其最先进功能之一。
在IR系统的数据库或数据存储器或者信息库(IS)组件中表示 的、作为搜索的可能对象的条目往往采取自由文本文档的形式。文档 可能很短(只有一行,如电子经销商网站中的产品名称)、中等长度(几 行,如新闻简讯中)或者相当长(数页,如财经报导、科学论文或百科 全书条目中)。仍然要突出强调的是,文本媒体虽然无疑是当今最常 见的,但绝不是数据库条目的唯一适用媒体。IS可由作为图片、视频、 声音剪辑、电子转录乐谱或者包含信息的其它任何资源的条目组成。 查询则可包括描述所需图片(颜色、形状等)或声音、短音乐或节奏模 式等的部分或特征。
作为所述具体实施例的背景,在电子商务领域、以下称作电子商 务上下文(ECC)中提供一些解说。在当前上下文中,IS是产品名称、 图片以及描述的巨大存储库,查询是用户以描述(可能不完全地)其需 求的文本字符串形式提交的请求。
选取EC上下文的原因有三个:
a)电子商务以指数增长,并显示巨大潜力,
b)根据用户不会购买无法找到的物品,优秀的SE是成功操作必 不可少的。特别是,如果用户只能找到接近他所想的内容,则他在这 时不太可能进行购买,并且对于将来的购买也不太可能尝试电子商 务,以及
c)可用的SE未能满足为了允许根据不熟练的典型用户输入来准 确查找所需产品所需要的功能。
以下引述其中还支持上述观察:
a)关于电子零售领域的潜力:
-“到2002年底,全球有超过6亿人将访问万维网,并且他们 将花费超过1万亿美元在线购物”(13/2/2001,Newsfactor.com,“E- commerce to top $1 trillion shopping online”)。
-“电子零售业有前途吗?在Booz-Allen,我们的答案是响亮的 “是”!这个部分的增长潜力是巨大的”(3/2001,ebusinessforum, Booz-Allen&Hamilton)。
b)关于优秀SE对这种应用的重要性:
-“一半以上的在线购买者利用搜索来查找产品-搜索工具越 好,他们购买越多”,...,“每当我们对搜索增加新功能,出价会更 高”,...,“忽视搜索的重要性的网站在不知不觉中损失销售额” (24/9/2001,Businessweek.com,“Desperately seeking search technology”)。
-“如果搜索功能没有正常工作,则80%的在线用户将放弃网 站”(28/11/2001,webmastrcase.com,“Secrets to site search success”)。
c)关于目前情况:
-“可证明电子商务不获利的主要原因在于忽略了搜索能力...优 秀的搜索能力能够帮助扭转那种局面”(24/9/2001,Seybold Group, Businessweek.com,“Desperately seeking Search technology”)。
-“阻止用户在网站上购买的最常见因素是他们没有找到正寻找 的商品。在我们的研究中,这种情况占所有损失销售额的27%。而 且当他们使用网站的搜索功能尝试查找商品时,失效率甚至更高-足 有36%的用户无法找到他们所需的”(02/2001,webtechniques.com, “Building web sites with depth”)。
-“购物者有时只是想搜索该商品,迅速找到它并付款离开。然 而,大部分电子零售网站采用不一定有效的较旧的搜索技术,往往阻 碍使用”(28/3/2001,professionaljeweler.com)。
-“去年春天由Forrester Research测试的在线零售网站超过三分 之二无法在搜索结果的首页列示最相关内容。难怪网站遭遇到无能力 使浏览者转化为购买者的情况。顾客简直就是被无力的搜索技术赶 走。”(28/2/2001,nytimes.com,Lisa Guernsey的“Revving-up the search engines to keep the E-Aisles clear”)。
信息检索系统
在其最一般和基本的形式中,IR系统由两个组件组成:
-a)数千到数百万(有时甚至是数千万)条目的信息库;以及
-b)搜索引擎,它可处理给定查询-以自由流自然语言或者以 某种预定形式语言来表达,或者甚至作为从菜单、地图或给定目录中 的选择-以及从IS返回系统判定与用户查询相关的条目组。检索条 目可作为未组织的集合或作为有序列表来呈现,按诸如日期、作者或 价格之类的某种元数据标准,或者更贴切地按假定测量它与用户请求 的接近程度的条目的评分(从最好到最差)来排序。结果则可作为到相 干条目的指针(或引用)来呈现,或者通过完整地显示这些条目来呈 现,或者最终通过仅显示由系统判定为用户最感兴趣的这些条目的所 选部分来呈现。
已经提出这种基本范例的若干增强,在某种程度上,还通过后代 SE来实现。因此,可通过采用可能增强查询/条目匹配成功率的有用 数据、如关键字或描述符对IS中的条目注释来对其预处理。此外, 查询本身可经过澄清过程,其中拼写错误被识别及纠正,以及同义词 被识别并附加到查询的某些部分。用户可通过根据他的原始查询结果 进行第二次搜索来提炼其搜索。最后,结果可通过更相干的结构来呈 现,即作为树或分层结构,或者以预定义的方式,或者通过顶部结果 的“即时”聚类来呈现。
在检索上下文中,上述方案仍然有多个问题未得到解决;其中几 个如下所示。
1.IS中的特定条目可能匹配查询指定的需求而仍未被检索,因为 相关条目的描述不包含用户在查询中指定的准确检索词,而只包含其 它一些相关检索词;它们可能是同义词或近义词(短裤/裤子)、首字母 缩写词和缩略语(tv/电视)、更一般的检索词(玫瑰/花)、更具体的检索 词(衬衣/T恤衫)等;覆盖率因而受到影响。
2.该过程可能错误地检索包含查询检索词(的一部分)、但仍然不 满足查询条件的条目。因此,对于“tv天线”可能检索“电视”产品, 或者反之,对于“桌布”请求可能显示“桌布夹”,从而影响系统的 准确度。
3.出现在查询中的介词,例如“对于”、“从”、“由”,甚至 更多可解释为运算符的诸如“非”、“与”、“或”之类的检索词, 有时甚至是具体的标点-如果没有正确分析和说明-可能完全颠 倒查询解释。
4.在系统标识为查询的可能适当结果的条目中,必须仔细检查和 匹配查询中明确提到的适当属性的值,例如用于颜色的“红”或“蓝” (或者“红和蓝”)、用于材料的“丝绸”或“羊毛”等。这可能是相 当复杂的过程,因为条目中的对应属性值在IS中关于这个特定条目 可得到的信息中可能只是含蓄地暗示。
5.需要解决多义查询,以便支持不检索完全多余资料的合理搜 索。查询中的单词“records”指的是音乐的录制品还是Guinness类 型的记录?单词“glasses”指的是杯子还是眼镜?消除多义性可能是 复杂的问题,特别是当多义性跨越不同范围时,例如在可能指定颜 色、产品(例如手表)属性或者材料本身的“gold”的情况下。多义性 也可能是语法而不是词汇方面的,例如在“红色衬衣和短裤”中。
6.在没有条目满足用户请求的所有方面而只是满足其中一部分 时情况是怎样的?系统如何确定哪些条件比其它条件更重要?在查 询只是部分被表达、例如只给出品名时,情况是怎样的?SE是否能 够智能地处理空查询?
7.SE的一个常见问题在于,极大数量的信息可作为单一查询的 结果被返回。这种数量往往是仅浏览前面几页结果的人类用户难以处 理的。极相关的结果往往可能被遗漏,只是因为它们在第十页或第五 十页上出现。例如,利用Google对“原子能”的搜索返回一百万条 以上的结果。较为适当但仍难以处理的是在Yahoo中对于“衬衣” 的搜索!购物,返回70000种以上的产品!理智的用户期望如何处置 这些结果?
因此,广泛认识到需要一种没有上述局限的搜索引擎,而且具有 这种搜索引擎将是很有利的。
发明内容
根据本发明的一个方面,提供一种用于搜索数据库以产生提炼结 果空间的交互方法,该方法包括:
为搜索标准进行分析,
使用搜索标准来搜索数据库,从而得到初始结果空间,以及
获取用户输入以限定初始结果空间,从而得到提炼结果空间。
搜索最好是包括浏览。
分析最好是在搜索之前对数据库执行,从而为搜索优化数据库。
作为补充或替代,分析对用户输入的搜索标准来执行。
分析最好是包括使用语言分析。
该方法最好是包括对初始搜索标准进行分析,以便得到附加搜索 标准。
在一个实施例中,无效标准可接受为搜索标准,在这种情况中, 该方法继续进行,其方式是产生一系列问题,以便从用户获取搜索标 准。
为附加搜索标准进行的分析最好是采用初始搜索标准的语言分 析来进行。
分析最好是通过选择相关概念来进行。
分析最好是采用从方法的过去操作得到的数据来进行。
该方法最好是包括通过产生具有至少两个答案的至少一个提 示,来产生用于获取用户输入的提示,所述答案被选取以划分初始结 果空间。
产生提示最好是包括产生具有多个可能答案的至少一个分段提 示,每个答案对应于结果空间的一部分。
对提示的可能答案所定义的结果空间的各部分最好是包括结果 空间的实质上成比例的份额。
该方法最好是包括产生多个分段提示,以及从其中选择其答案最 均匀地划分结果空间的提示。
限定结果空间最好是包括从结果空间中排除不对应于用户输入 中给出的答案的任何结果。
该方法最好是包括允许用户插入附加文本,文本可用作限定中用 户输入的一部分。
该方法最好是允许通过产生具有至少两个答案的至少一个进一 步提示来重复用户输入获取的阶段,所述答案被选取以划分提炼结果 空间。
一个优选实施例允许限定继续进行,直至提炼结果空间收缩到预 定大小。
作为补充或替代,该方法可允许限定的这种继续,直至没有发现 进一步提示。
作为补充或替代,该方法可允许继续限定,直至接收到用户输 入,从而停止进一步限定并提交现有结果空间。
该方法可包括:确定已提交结果空间不包括预期条目;以及在确 定之后,可向用户提交已经通过限定排除的初始检索条目。
该方法最好是包括执行以下阶段:
从用户获取关于所提交结果空间不包括预期条目的确定,以及
向用户提交通过限定排除的初始检索条目。
该方法最好是包括接收初始搜索标准作为用户输入。
获取用户输入最好是包括为用户提供对提示不选择答案的可能 性。
该方法可包括在用户不选择答案之后提供附加提示。例如,相同 的问题可能以不同方式来询问,或者可由备选问题替代。
该方法最好是包括根据用户在查询之后对条目的最终选择来执 行系统内部搜索支持信息的更新。
更新可包括修改所选条目与所得到的用户输入之间的相关性。
根据本发明的第二方面,提供一种用于交互地搜索数据库以产生 提炼结果空间的装置,包括:
搜索标准分析器,用于分析以获得搜索标准,
数据库搜索器,与搜索标准分析器关联,用于采用搜索标准来搜 索数据库,从而得到初始结果空间,以及
限定器,用于获取用户输入以限定结果空间,并采用用户输入来 限定结果空间,从而制订提炼结果空间。
搜索标准分析器最好是包括数据库数据条目分析器,它能够产生 数据条目的分类,以便与所分析的搜索标准对应。
搜索标准分析器最好是包括数据库数据条目分析器,它能够利用 数据条目的分类,以便与所分析的搜索标准对应。
搜索标准分析器最好还能够利用数据条目的分类,以便与所分析 的搜索标准对应。
数据库数据条目分析器最好是可用于在搜索之前分析数据库的 至少一部分。
数据库数据条目分析器最好是可用于在搜索期间分析数据库的 至少一部分。
分析最好是包括语言分析。
分析最好是包括统计分析。
统计分析最好是包括统计语言分析。
搜索标准分析器最好是配置成接收来自用户的初始搜索标准供 分析。
初始搜索标准最好是无效标准。
分析器最好是配置成执行初始搜索标准的语言分析。
分析器最好是配置成根据相关概念的选择来执行分析。
分析器最好是配置成根据先前搜索中得到的历史知识来执行分 析。
限定器最好是可用于产生用于获取用户输入的提示,该提示包括 至少两个可选响应,响应可用于划分初始结果空间。
提示最好是包括具有多个可能答案的分段提示,每个答案对应于 结果空间的一部分,以及每个部分包含结果空间的实质上成比例的份 额。
产生提示最好是包括:
产生各具有多个可能答案的多个分段提示,每个答案对应于结果 空间的一部分,以及每个部分包含结果空间的实质上成比例的份额, 以及
选择其答案最均匀地划分结果空间的提示之一。
该装置可配置成允许用户插入附加文本,文本可由限定器用作用 户输入的一部分。
限定结果空间最好是包括从其中排除不对应于用户输入中给出 的答案的任何结果,从而产生修订结果空间。
限定器最好是可用于产生具有至少两个答案的至少一个进一步 提示,答案被选取以划分修订结果空间。
限定器最好是配置成继续限定,直至提炼结果空间收缩到预定大 小。
作为补充或替代,限定器配置成继续限定,直至没有发现进一步 提示。
作为补充或替代,限定器配置成继续限定,直至接收到用户输 入,从而停止进一步限定并提交现有结果空间。
最好使用户能够响应:所提交结果空间不包括预期条目,该装置 配置成在接收到这种响应时,向用户提交已经通过限定排除的初始检 索条目。
装置可配置成确定所提交结果空间不包括预期条目,该装置在这 种确定之后配置成在接收到这种响应时向用户提交已经通过限定排 除的初始检索条目。
分析器最好是配置成接收初始搜索标准作为用户输入。
限定器最好是配置成通过提示来为用户提供对提示不选择答案 的可能性。
限定器最好是可用于在用户不选择答案之后提供进一步提示。
装置可配备更新单元,用于根据用户在查询之后对条目的最终选 择来更新系统内部搜索支持信息。
更新最好是包括修改所选条目与所得到的用户输入之间的相关 性。
作为补充或替代,更新包括修改所选条目的分类与所得到的用户 输入之间的相关性。
根据本发明的第三方面,提供一种数据库,其中具有用于对其进 行交互式搜索以产生提炼结果空间的装置,该装置包括:
搜索标准分析器,用于为搜索标准进行分析,
数据库搜索器,与搜索标准分析器关联,用于采用搜索标准来搜 索数据库,从而得到初始结果空间,以及
限定器,用于获取用户输入以限定结果空间,并采用用户输入来 限定结果空间,从而提供提炼结果空间。
搜索标准分析器最好是包括数据库数据条目分析器,它能够产生 数据条目的分类,以便与所分析的搜索标准对应。
搜索标准分析器最好是包括数据库数据条目分析器,它能够利用 数据条目的分类,以便与所分析的搜索标准对应。
数据库数据条目分析器最好还能够利用数据条目的分类,以便与 所分析的搜索标准对应。
搜索标准分析器最好是包括能够按照数据库中的条目的分类结 构来分析用户提供的搜索标准的搜索标准分析器。
数据库包括数据条目,并且各数据条目最好被分析为可能的搜索 标准,从而优化与用户输入搜索标准的匹配。
数据库数据条目分析器最好是可用于执行语言分析。
数据库数据条目分析器最好是可用于执行统计分析,统计分析是 统计语言分析。
搜索标准分析器最好是配置成接收来自用户的初始搜索标准供 分析。
如上所述,初始搜索标准可以是无效标准。
分析器最好是配置成执行初始搜索标准的语言分析。
分析器最好是配置成根据相关概念的选择来执行分析。
分析器最好是配置成根据先前搜索中得到的历史知识来执行分 析。
限定器最好是可用于产生用于获取用户输入的提示,该提示包括 具有至少两个答案的提示,答案被选取以划分初始结果空间。
提示最好是具有多个可能答案的分段提示,每个答案对应于结果 空间的一部分,以及每个部分包含结果空间的实质上成比例的份额。
数据库和搜索装置可允许用户插入附加文本,文本可由限定器用 作用户输入的一部分。
限定结果空间最好是包括从其中排除不对应于用户输入的答案 之一的任何结果,从而产生修订结果空间。
限定器最好是可用于产生具有至少两个答案的至少一个进一步 提示,答案被选取以划分修订结果空间。
限定器最好是配置成继续限定,直至提炼结果空间收缩到预定大 小。
作为补充或替代,限定器配置成继续限定,直至没有发现进一步 提示。
作为补充或替代,限定器配置成继续限定,直至接收到用户输 入,从而停止进一步限定并提交现有结果空间。
最好使用户能够响应:所提交结果空间不包括预期条目,在这种 情况中,数据库和搜索装置配置成向用户提交已经通过限定排除的初 始检索条目。
数据库和搜索装置可配置成确定所提交结果空间不包括预期条 目,数据库在这种确定之后可用于向用户提交已经通过限定排除的初 始检索条目。
分析器最好是配置成接收初始搜索标准作为用户输入。
限定器最好是配置成通过提示来为用户提供对提示不选择答案 的可能性。
限定器最好是还配置成在用户不选择答案之后提供附加提示。
数据库和搜索装置可配备更新单元,用于根据用户在查询之后对 条目的最终选择来更新系统内部搜索支持信息。
更新最好是包括修改所选条目与所得到的用户输入之间的相关 性。
更新最好是包括修改所选条目的分类与所得到的用户输入之间 的相关性。
根据本发明的第四方面,提供一种用于搜索所存储数据条目的查 询方法,该方法包括:
i)接收包含至少第一搜索检索词的查询,
ii)通过向查询添加与至少第一搜索检索词相关的检索词来扩充 查询,
iii)检索与检索词中的至少一个对应的数据条目,
iv)采用应用于所检索数据条目的属性值制订对用户的提示,
v)向用户询问制订的提示中的至少一个,作为用于聚焦查询的提 示,
vi)接收对它的响应,以及
vii)采用所接收响应来与属性的值进行比较,以便排除所检索条 目中的一些,从而提供所检索数据条目的子集作为查询结果。
查询最好是包括多个检索词,以及扩充查询还包括分析这些检索 词以确定这些检索词中的一些之间的语法上的相互关系。
查询方法可包括采用语法上的相互关系来标识搜索查询的主检 索词和辅助检索词。
扩充最好是包括分别向查询添加下列各项的三阶段过程:
a)与搜索检索词密切相关的条目,
b)在较小程度上与搜索检索词相关的条目,以及
c)因搜索检索词中固有的多义性而得到的备选解释。
条目最好是包括词汇术语和概念表示的组中的一个。
查询方法可包括重复阶段iii)至vi)的至少一个附加聚焦过程,从 而提供所检索数据条目的提炼子集作为查询结果。
查询方法可包括根据基于概率值的熵权重对制订的提示排序,并 询问具有更极端的熵权重的提示中的一些。
查询方法可包括在接收到对于先前提示的响应之后重新计算概 率值,从而重新计算熵权重。
查询方法可包括采用各提示的动态答案集,动态答案集包含与分 类值关联的答案,分类值对于一些所接收条目为真以及对于另一些所 接收条目为假,从而区别所检索条目。
查询方法可包括根据区别所检索条目的相应能力对动态答案集 中的各个答案分级。
查询方法可包括根据用户搜索行为来修改概率值。
用户搜索行为最好是包括当前用户的过往行为。
作为补充或替代,用户搜索行为包括在一组用户上聚集的过往行 为。
修改最好是包括采用用户搜索行为来获得各个数据条目的先验 选择概率,以及修改权重以反映概率。
熵权重最好是与包括条目的条目分类和相应分类值的组中的至 少一个关联。
查询方法可包括在接收查询之前对所存储数据条目进行语义分 析。
查询方法可包括在搜索会话期间对所存储数据条目进行语义分 析。
语义分析最好是包括把数据条目分为若干类。
查询方法可包括把属性分为属性类。
分类最好是包括在对象类或主类之中以及在属性类之中进行区 分。
分类最好是包括提供对单个数据条目的多个分类。
最好是对于相应数据库的主题的内在意义预先选择各个类的分 类排列。
查询方法可包括分级排列类中的主类。
查询方法可包括分级排列属性类。
查询方法可包括从检索词的分级排列确定数据条目中检索词的 语义意义。
类最好是还用于分析查询。
最好是根据相应数据库的主题对属性值分配权重。
最好是根据相应数据库的主题对属性值和类中的至少一个分配 角色。例如,角色可能是数据条目的状态或者数据条目的属性。
角色最好是还用于剖析查询。
查询方法可包括根据按照数据库的主题所分配的角色来分配重 要性权重。
查询方法可包括采用重要性权重来区别部分满足的查询。
分析最好是包括名词短语类型剖析。
分析最好是包括采用与所存储数据条目的主题相关的知识库所 支持的语言技术。
分析最好是包括采用统计分类技术。
分析最好是包括采用以下各项的组合:
i)与所存储数据条目的主题相关的知识库所支持的语言技术,以 及
ii)统计技术。
统计技术最好是在语言技术之后对数据条目执行。
语言技术最好是包括以下各项中的至少一个:
分割,
标记化,
词形归类,
标记,
词性标记,以及
数据条目的至少部分命名实体识别。
查询方法可包括采用概率以及排列为权重的概率中的至少一种 来区别来自各个技术的不同结果。
查询方法可包括根据用户搜索行为来修改权重。
用户搜索行为最好是包括当前用户的过往行为。
作为补充或替代,用户搜索行为包括在一组用户上聚集的过往行 为。
语言技术的输出最好是用作至少一个统计技术的输入。
至少一个统计技术最好是用于语言技术中。
查询方法可包括采用两种统计技术。
查询方法可包括分配表明与所存储数据条目中的至少一个关联 的意义的至少一个代码,分配是对很可能见于针对至少一个所存储数 据条目的查询中的检索词。
与所存储数据条目中的至少一个关联的意义最好是条目、条目的 属性类以及条目的属性值中的至少一个。
查询方法可包括通过把新检索词分配给至少一个代码,来扩充很 可能见于查询中的检索词的范围。
查询方法可包括提供类检索词的分组以及属性值检索词的分 组。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,向用户提供解决有效性的提示。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,则根据它来检索数据条目并根据相应数据条目检索来区别这些意 义。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,采用与所存储数据条目的主题关联的知识库来区别在语义上有效 的意义。
查询方法可包括对各数据条目预先定义概率矩阵,把数据条目与 属性值集合关联。
查询方法可包括采用概率来解决查询中的多义性。
查询方法可包括处理包含与预定概念集相关的多个检索词的输 入文本的阶段,以便就概念而论对检索词分类,该阶段包括:
把预定概念集排列为概念分级结构,
把检索词与相应概念匹配,以及
把与匹配概念分级相关的其它概念应用于相应检索词。
概念分级结构最好是包括以下关系中的至少一个:
(a)上位词-下位词关系,
(b)部分-整体关系,
(c)属性值维-属性值关系,
(d)相邻概念子层次之间的相互关系。
对检索词分类最好是还包括应用置信度,以便根据为匹配各个概 念进行的判定的类型对匹配概念分级。
查询方法可包括:
标识文本中的介词,
利用介词与检索词的关系把检索词标识为焦点检索词,以及
把与焦点检索词匹配的概念设置为焦点概念。
排列概念最好是包括把同义概念分组在一起。
同义概念的分组最好是包括作为相互形态变异的概念检索词的 分组。
检索词中的至少一个最好是具有多个意义,该方法包括区别多个 意义以选择最可能意义的消除多义性阶段。
消除多义性阶段最好是包括比较属性值、属性维、输入文本与多 个意义的相应概念之间的商标关联和型号关联中的至少一个。
比较最好是包括确定统计概率。
消除多义性阶段最好是包括把多个意义中的第一意义标识为与 文本中的检索词中的另一个分级相关,以及选择第一意义作为最可能 意义。
查询方法可包括保留多个意义中的至少两个。
查询方法可包括把概率等级应用于所保留意义中的每个,从而确 定最可能的意义。
查询方法可包括查找检索词中的至少一个的备选拼写,并把各备 选拼写作为备选意义来应用。
查询方法可包括采用相应概念关系来确定备选拼写中最可能的 一个。
输入文本最好是要添加到数据库中的条目。
输入文本最好是用于搜索数据库的查询。
根据本发明的第五方面,提供一种用于搜索所存储数据条目的查 询方法,该方法包括:
从用户接收包含至少第一搜索检索词的查询,
通过向查询添加与至少第一搜索检索词相关的检索词来扩充查 询,
就多义性分析查询,
为用户制订至少一个多义性解决提示,使得对提示的答案解决多 义性,
考虑到对多义性解决提示所接收的答案来修改查询,
检索与已修改查询对应的数据条目,
为用户制订结果限定提示,
选择结果限定提示中的至少一个来询问用户,并接收其响应,
采用所接收响应来排除所检索条目中的一些,从而向用户提供所 检索数据条目的子集作为查询结果。
查询最好是包括多个检索词,以及扩充查询还包括分析这些检索 词以确定这些检索词中的一些之间的语法上的相互关系。
扩充最好是包括分别向查询添加下列各项的三阶段过程:
a)与搜索检索词密切相关的条目,
b)在较小程度上与搜索检索词相关的条目,以及
c)因搜索检索词中固有的任何多义性而得到的备选解释。
查询可包括重复阶段iii)至vi)的至少一个附加聚焦过程,从而提 供所检索数据条目的提炼子集作为查询结果。
查询方法可包括根据基于概率值的熵权重对制订的提示排序,并 询问具有更极端的熵权重的提示中的一些。
查询方法可包括在接收到对于先前提示的响应之后重新计算概 率值,从而重新计算熵权重。
查询方法可包括采用各提示的动态答案集,动态答案集包含与属 性值关联的答案,属性值对于一些所接收条目为真,对于另一些所接 收条目为假,从而区别所检索条目。
查询方法可包括根据区别所检索条目的相应能力对动态答案集 中的各个答案分级。
查询方法可包括根据用户搜索行为来修改概率值。
用户搜索行为最好是包括当前用户的过去行为。
作为补充或替代,用户搜索行为包括在一组用户上聚集的过去行 为。
修改最好是包括采用用户搜索行为来获得各个数据条目的先验 选择概率,以及修改权重以反映概率。
熵权重最好是与包括条目、相应属性的分类和分类值的组中的至 少一个关联。
查询方法可包括在接收查询之前对所存储数据条目进行语义剖 析。
查询之前的语义分析最好是包括把数据条目预先排列为类,每个 类具有已分配的属性值,预先排列包括剖析数据条目以便从其中标识 数据条目类,并在存在时标识类的属性值。
查询方法可包括把属性值排列为类。
最好是对于相应数据库的主题的内在意义预先选择类。
最好是分级排列类中的主类。
最好是分级排列属性类。
查询方法可包括从检索词的分级排列确定数据条目中的检索词 的语义意义。
类最好是还用于分析查询。
最好是根据相应数据库的主题对属性值分配权重。
最好是根据相应数据库的主题对属性值和类中的至少一个分配 角色。
角色最好是还用于剖析查询。
查询方法可包括按照根据主题所分配的角色来分配重要性权 重。
查询方法可包括采用重要性权重来区别部分满足的查询。
分析最好是包括名词短语类型剖析。
分析最好是包括采用与所存储数据条目的主题相关的知识库所 支持的语言技术。
分析最好是包括统计分类技术。
分析最好是包括采用以下各项的组合:
i)与所存储数据条目的主题相关的知识库所支持的语言技术,以 及
ii)统计技术。
统计技术最好是在语言技术之后对数据条目执行。
语言技术最好是包括以下各项中的至少一个:
分割,
标记化,
词形归类,
标记,
词性标记,以及
数据条目的至少部分命名实体识别。
查询方法可包括采用概率以及排列为权重的概率中的至少一个 来区别来自各个技术的不同结果。
查询方法可包括根据用户搜索行为来修改权重。
用户搜索行为最好是包括当前用户的过去行为。
用户搜索行为最好是包括在一组用户上聚集的过去行为。
语言技术的输出最好是用作至少一个统计技术的输入。
至少一个统计技术最好是用于语言技术中。
查询方法可包括采用两种统计技术。
查询方法可包括分配表明与所存储数据条目中的至少一个关联 的意义的至少一个代码,分配是对很可能见于针对至少一个所存储数 据条目的查询中的检索词。
与所存储数据条目中的至少一个关联的意义最好是条目、条目的 分类以及条目的分类值中的至少一个。
查询方法可包括通过把新检索词分配给至少一个代码,来扩充很 可能见于查询中的检索词的范围。
查询方法可包括提供类检索词的分组以及属性值检索词的分 组。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,向用户提供解决有效性的提示。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,则根据它来检索数据条目并根据相应数据条目检索来区别这些意 义。
最好是,如果分析标识多义性,则对于多义性中的各意义的语义 有效性执行测试查询的阶段,以及对于被认为在语义上有效的各意 义,采用与所存储数据条目的主题关联的知识库来区别在语义上有效 的意义。
查询方法可包括为各数据条目预先定义概率矩阵,把数据条目与 属性值集合关联。
查询方法可包括采用概率来解决查询中的多义性。
根据本发明的第六方面,提供一种用于搜索所存储数据条目的查 询方法,该方法包括:
从用户接收包含至少两个搜索检索词的查询,
通过确定搜索检索词之间的语义关系来分析查询,从而区分定义 条目的检索词与定义其属性值的检索词,
检索与所标识条目中的至少一个对应的数据条目,
采用应用于所检索数据条目的属性值制订对用户的提示,
向用户询问制订的提示中的至少一个,并接收其响应,
采用所接收响应来与属性的值进行比较,以便排除所检索条目中 的一些,从而向用户提供所检索数据条目的子集作为查询结果。
分析查询最好是包括应用置信度,以便根据对达到这些检索词进 行的判定的类型对检索词分级。
根据本发明的第七方面,提供一种用于搜索所存储数据条目的查 询方法,该方法包括:
从用户接收包含至少第一搜索检索词的查询,
剖析查询以检测名词短语,
检索与所剖析查询对应的数据条目,
为用户制订结果限定提示,
选择结果限定提示中的至少一个来询问用户,并接收其响应,
采用所接收响应来排除所检索条目中的一些,从而向用户提供所 检索数据条目的子集作为查询结果。
剖析最好是包括标识:
i)对查询中的所存储数据条目的引用,以及
ii)对属性类及其关联的属性值中的至少一个的引用。
查询方法可包括把重要性权重分配给相应属性值,重要性权重可 用于测量与检索中的数据条目的对应等级。
查询方法可包括对结果限定提示分级,并且仅向用户询问提示中 的最高级别的提示。
分级最好是根据修改所检索条目的总数的相应提示的能力来进 行。
分级最好是根据应用于相应提示相关的属性值的权重来进行。
分级最好是根据在该方法的先前操作中收集的经验来进行。
经验最好是包括所有用户的经验、一组所选用户的经验、来自类 似查询的组的经验以及从当前用户收集的经验的组中的至少一种。
制订最好是包括根据所检索条目的总数的有效性等级来制定提 示。
制订最好是包括对于与查询的数据条目关联的属性值加权,并制 定与加权属性值中的最高值相关的提示。
制订最好是根据在该方法的先前操作中收集的经验来制定提 示。
制订最好是包括根据所检索结果包含至少两个答案的集合,每个 答案映射到至少一个所检索结果。
根据本发明的第八方面,提供一种对于与数据检索系统的对象集 合相关的所存储数据分类的自动方法,该方法包括:
定义至少两个对象类,
对每个类分配至少一个属性值,
对于分配给每个类的各属性值,分配重要性权重,
把集合中的对象分配给至少一个类,以及
为对象分配类的至少一个属性的属性值。
对象最好是由文本数据来表示,以及其中,对象的分配和属性值 的分配包括采用语言算法和知识库。
对象最好是由文本数据来表示,以及对象的分配和属性值的分配 包括采用语言算法、知识库和统计算法的组合。
对象最好是由文本数据来表示,以及其中,对象的分配和属性值 的分配包括采用受监督的聚类技术。
受监督的聚类最好是包括首先采用语言算法和知识库进行分 配,然后再添加统计技术。
查询方法可包括提供至少一个类中的对象分类法。
查询方法可包括提供至少一个属性中的属性值分类法。
查询方法可包括对于就单一标签下的对象类而言具有相似意义 的查询检索词进行分组。
查询方法可包括对属性值分组以形成分类法。
分类法对于多个对象类是全局的。
对象最好是由其中包含与预定概念集相关的多个检索词的文本 描述来表示,该方法包括分析文本描述的阶段,以便就概念而言对检 索词分类,该阶段包括:
把预定概念集排列为概念分级结构,
把检索词与相应概念匹配,以及
把与匹配概念分级相关的其它概念应用于相应检索词。
概念分级结构最好是包括以下关系中的至少一个:
(a)上位词-下位词关系,
(b)部分-整体关系,
(c)属性维-属性值关系,
(d)相邻概念子层次之间的相互关系。
对检索词分类最好是还包括应用置信度,以便根据为匹配各个概 念进行的判定的类型对匹配的概念分级。
查询方法可包括:
标识介词,
采用介词与检索词的关系把检索词标识为焦点检索词,以及
把与焦点检索词匹配的概念设置为焦点概念。
排列概念最好是包括把同义概念分组在一起。
同义概念的分组最好是包括作为相互形态变异的概念检索词的 分组。
检索词中的至少一个最好是具有多个意义,该方法包括区别多个 意义以选择最可能意义的消除多义性阶段。
消除多义性阶段最好是包括比较属性值、属性维、检索词与多个 意义的相应概念之间的商标关联和型号关联中的至少一个。
比较最好是包括确定统计概率。
消除多义性阶段最好是包括把多个意义中的第一意义标识为与 检索词中的另一个分级相关,以及选择第一意义作为最可能意义。
查询方法包括保留多个意义中的至少两个。
查询方法可包括把概率等级应用于所保留意义中的每个,从而确 定最可能意义。
查询方法可包括查找检索词中的至少一个的备选拼写,并把各备 选拼写作为备选意义来应用。
查询方法可包括采用相应概念关系来确定备选拼写中最可能的 一个。
根据本发明的第九方面,提供一种处理包含与预定概念集相关的 多个检索词的输入文本、以便就概念而言对检索词分类的方法,该方 法包括:
把预定概念集排列为概念分级结构,
把检索词与相应概念匹配,以及
把与匹配概念分级相关的其它概念应用于相应检索词。
概念分级结构最好是包括以下关系中的至少一个:
(a)上位词-下位词关系,
(b)部分-整体关系,
(c)属性维-属性值关系,
(d)相邻概念子层次之间的相互关系。
对检索词分类最好是还包括应用置信度,以便根据为匹配各个概 念进行的判定的类型对匹配概念分级。
查询方法可包括:
标识文本中的介词,
采用介词与检索词的关系把检索词标识为焦点检索词,以及
把与焦点检索词匹配的概念设置为焦点概念。
排列概念最好是包括把同义概念分组在一起。
同义概念的分组最好是包括作为相互形态变异的概念检索词的 分组。
检索词中的至少一个最好是包括多个意义,该方法包括区别多个 意义以选择最可能意义的消除多义性阶段。
消除多义性阶段最好是包括比较属性值、属性维、输入文本与多 个意义的相应概念之间的商标关联和型号关联中的至少一个。
比较最好是包括确定统计概率。
消除多义性阶段最好是包括把多个意义中的第一意义标识为与 文本中的检索词中另一个分级相关,以及选择第一意义作为最可能意 义。
查询方法可包括保留多个意义中的至少两个。
查询方法可包括把概率等级应用于所保留意义中的每个,从而确 定最可能意义。
查询方法可包括查找检索词中的至少一个的备选拼写,并把各备 选拼写作为备选意义来应用。
查询方法可包括采用相应概念关系来确定备选拼写中最可能的 一个。
输入文本最好是要添加到数据库中的条目,或者是用于搜索数据 库的查询。也就是说,本发明的方法适用于搜索引擎的后端和前端, 其中,后端是处理供将来搜索的数据库信息的单元,而前端则处理当 前查询。
除另有定义之外,本文所使用的所有科技术语具有与本发明所属 领域的技术人员普遍理解的同样的意义。本文所提供的资料、方法和 实例只是说明性的,而不是意在限制。
本发明的方法及系统的实现涉及以手动、自动或者它们的组合来 执行或完成所选任务或步骤。此外,根据本发明的方法及系统的优选 实施例的实际仪器和装置,若干所选步骤可通过硬件或通过任何固件 的任何操作系统上的软件或者它们的组合来实现。例如,作为硬件, 本发明的所选步骤可实现为芯片或电路。作为软件,本发明的所选步 骤可实现为由采用任何适当操作系统的计算机执行的多个软件指 令。在任一情况中,本发明的方法及系统的所选步骤可描述为通过数 据处理器、例如用于执行多个指令的计算平台来执行。
附图简介
本文中参照附图、仅通过举例来描述本发明。现在具体参照详细 附图,要强调的是,所示详细情况作为实例,仅用于对本发明的优选 实施例的说明性论述,并且提出的目的是为了提供被认为是对本发明 的原理及概念方面的最有用且易于理解的描述。在这方面,无意更详 细地说明基本了解本发明所需的内容之外的结构细节,结合附图的说 明使本领域的技术人员清楚如何实际上实施本发明的若干形式。
附图中:
图1是简化框图,说明根据本发明的第一实施例、与待搜索的数 据存储器关联的搜索引擎;
图2是简化框图,更详细地说明图1的搜索引擎;
图3是简化流程图,说明根据本发明的一个优选实施例对数据编 索引的过程;以及
图4是简化示意图,更详细地说明图3的过程。
优选实施例的描述
当前实施例提供用于处理与数据的存储器相关的用户查询的增 强功能搜索引擎。搜索引擎包括:前端,用于处理用户查询;后端, 用于处理存储器中的数据,以便增强它的可搜索性;以及学习单元, 根据用户行为的累积经验改进处理搜索查询的方式。注意,尽管所述 实施例重点放在包含语言描述的数据条目,但本发明决不受此限制, 并且搜索引擎可用于其本身可按照分级结构(包括平面分级结构)排 列的、或者可分类为可按照分级结构排列的属性或值的、任何种类的 条目。搜索例如可包括音乐。
搜索引擎的前端采用数据的一般和特定知识来拓宽查询的范 围,执行匹配操作,然后采用数据的特定知识对匹配进行排序和排 除。数据的特定知识可用于询问用户的聚焦阶段,以便把搜索缩窄到 用户一般所关注的范围。另外,它能够向用户提问,采取提示的形式, 其答案可用于对匹配进一步排序和排除。可以理解,提示可能采取不 同于文字问题的形式。
搜索引擎的后端部分能够处理数据存储器中的数据,以便把数据 对象分组为类,并把属性分配给类以及把值分配给类中的各个对象的 属性。然后,权重可分配给属性。已经以这种方式组织数据后,前端 则能够标识类、属性以及来自各个用户查询的对象和属性值,并采用 权重来进行查询与数据库中对象之间的匹配以及对其排序。然后,可 向用户提出关于对象和属性的问题,使得所检索对象集可减小(或者 重新排序)。与各种属性相关的问题则可根据属性权重重新排序,使 得只向用户提出最重要的问题。
前端在剖析文本查询时以及后端在剖析文本数据条目时都可采 用语言或者统计NLP技术或其组合,以便剖析文本并导出类和属性 信息。一个优选实施例采用浅层剖析,然后采用两个统计分类器以及 一个基于语言推动规则的分类器。优选实施例采用受监督的统计分类 技术。
学习单元最好是遵循查询行为,并修改所存储权重以反映实际用 户行为。
参照附图及所附说明,可以更好地理解根据本发明的搜索引擎的 原理和操作。
在详细说明本发明的至少一个实施例之前,要理解,本发明不限 于它在以下描述中阐述或者在附图中所示的组件的构造及配置的详 细情况的应用。本发明能够用于其它实施例或者以各种方式来实施或 执行。另外,要理解,本文所采用的用语和术语是为了便于描述而不 应当被视作限制。
现在参照图1,它是一个简化框图,说明根据本发明的一个优选 实施例的搜索引擎。搜索引擎10与数据存储器12关联,数据存储器 12可以是本地数据库、公司的产品目录、公司的知识库、给定内联 网上的所有数据、或者甚至大体上是这类未定义数据库、如万维网。 一般来说,本文所述的实施例对于某种所定义的数据存储器最佳地工 作,在这种数据存储器中,可能无限数量的数据对象映射到有限数量 的条目类。
搜索引擎10包括前端14,它的任务是解释用户查询,拓宽搜索 空间,搜索数据存储器12以便匹配条目,然后采用多种技术的任一 种对结果排序,并从结果中排除匹配条目,使得最终仅向用户呈现完 全对准目标的列表。下面更详细地描述前端单元的操作。
后端单元16与前端单元14关联以及与数据存储器12关联,并 对数据存储器12中的数据条目进行操作,以便对它们分类,从而在 前端单元14进行有效处理。后端单元最好是把数据条目分类为各 类。通常,对于每个数据条目提供多个分类,并将其存储为元数据注 释。为各分类提供置信度权重。置信度权重最好是表示给定类值真正 适用于条目的系统的置信度。
由后端单元执行的分类过程以及由前端单元执行的查询分析过 程利用知识库19中存储的数据。
学习单元18最好是遵循所接收查询中的实际用户行为,以及修 改知识库19中存储的知识的各个方面。学习的范围可从频率数据的 简单累积到复杂的机器学习任务。
现在参照图2,它是简化示意图,更详细地说明图1的搜索引擎 10。
查询输入单元20接收来自用户的查询。查询可能详细到任何程 度,通常取决于用户对于他正查询的内容的了解程度。解释器22连 接到输入端,并接收查询供初始分析。解释器分析、解释和增强请求, 并且将它再制订为正式请求。正式请求是符合数据库条目的模型描述 的请求。正式请求能够为该请求的可能变量读数提供置信度的量度。 为了构成正式请求,以及为了规定变量,解释器22一方面利用包含 词典和百科全书的一般知识库24,另一方面利用从数据存储器中的 条目所储备的领域特定语义数据26。领域特定数据可采用机器学习 单元18从已经提交类似查询的先前用户的行为中得到增强,如上所 述。另外,解释器把请求剖析为一系列名词和形容词,并且尝试确定 查询中的哪些检索词涉及哪些已知类(在分类方案中),考虑某些类值 被看作其它类值的属性。因此,在查询“红色长袖衬衣”中,检索词 “衬衣”被解释为涉及类“衬衣”,“红色”被解释为对衬衣定义的 属性类“颜色”的值,以及“长袖”被解释为对衬衣的类定义的属性 类“衣袖长度”的值。采用上述解释,搜索过程因而将集中于衬衣的 类,并寻找为红色且带长袖的个别衬衣。
匹配器28的任务则是搜索可包括一个或多个分开的数据库的数 据存储器(可能利用各种索引),以便查找匹配正式请求的成分的条 目。分级器30提供数值来描述查询与各数据条目之间匹配的整体等 级,即,它评定数据条目与查询的相关性。这种相关性分级受到正式 请求的成分的匹配质量、查询的变量读数的置信度以及通过索引器附 加到条目的数据分类(如果可用的话)的置信量度的影响。
然后可把数值与门限相比,以便判定是否把数据条目添加到结果 空间。结果空间中的所检索数据条目还可根据分级器计算的得分以降 序相关性来排序。因此,在上述实例中,条目“带长袖的普通红色棉 衬衣”将以高置信度被添加到结果空间,“带长袖的普通红色尼龙衬 衣”也是一样。条目“带长袖的有花纹棉衬衣”可能以较低置信度被 添加到结果中,以及条目“有领普通T恤”以更低置信度被添加。
分级器进行的计分由根据需要与用户进行澄清对话的提示器32 来支持。也就是说,提示器为用户提供指定可用来修改和压缩结果空 间的附加信息的可能性。
我们认为,区分两种类型的提示是有用的。一种类型是消除多义 性提示,通常在查询采取文本形式时被指定以便消除查询解释中的多 义性。例如,如果查询解释过程遇到查询中的多义检索词,则系统可 产生提示,请求关于要用检索词的什么意义的指示。另一个实例-如 果查询解释过程发现查询中的拼写错误,则系统可产生提示,请求关 于应当采用哪种拼写校正的指示。另一种类型的提示是缩减提示,它 被直接指定以获得可用来修改和压缩结果空间的信息,而与查询中可 能出现的多义性无关。作为缩减提示的一个实例,在上述情况中,提 示器可能询问用户他(她)更喜欢有花纹的还是普通的衬衣,还是没有 偏好,以及他(她)对常规衬衣、运动衫还是T恤有兴趣。
采用每一种提示进行提示可在从数据库检索条目之前或之后执 行。可以理解,在条目检索之后的提示最好是仅执行到有效地区分条 目的程度。因此,不会提出诸如“您想要常规衬衣还是T恤?”之类 的问题,除非当前结果空间包括两种类型的衬衣。一般来说,旨在修 改和压缩结果空间的提示在条目检索之后进行,因为提示的组成取决 于检索的结果。但是,固定提示甚至在条目检索之前也可使用,仅由 查询的解释来触发。
提示器32产生可能的提示。提示可采取具体问题的形式,或者 选择阵列的形式,或者它们的组合以及引发用户响应的其它方式。提 示器包括用于评估每个特定提示对于提炼结果集的适用性的功能,以 及选择最有用提示的短列表以便呈现给用户。如果感觉在此阶段是适 合的,则可通过条目的分级列表的代表部分或者条目标题/描述符来 提交提示。
缩减提示通常隐式或显式地要求用户指明可用来修改和缩减相 关结果集的某种分类信息。因此,可能的缩减提示的集合从可用的或 者可立即变为可用于信息仓库(例如数据库)中的数据条目的分类集 中动态提取。根据查询解释以及根据当前相关结果集的组成,动态产 生提示。因此,如果初始查询针对衬衣,则具有对于颜色、材料、尺 寸、袖长和价格等的提示是有意义的,以及相关提示可从直接与“衬 衣”类相关的分类中获得。提示器评估可用提示,以便判定哪个对结 果集最有影响,以及哪个最可能被搜索引擎用户看作是重要的。因 此,如果用户已经请求红色棉衬衣,并且所检索的所有红色衬衣都是 长袖的,询问用户关于袖长的情况则没有意义。如果在所接收的一百 种衬衣中,只有一种是短袖,询问长袖或短袖则对结果集有极小的影 响。结果集将减少一,或者另一方面,用户根本没有选择。另一方面, 如果相关集合中大约一半衬衣为长袖,一半为短袖,询问袖长则大有 意义,因为除非接收到“随意”答案,否则结果集可显著缩减。
可用的或者可立即变为可用于数据条目的分类集由为数据库设 置的导航方针来定义。一般来说,方针最好是包含用于领域特定浏览 的分级结构概念分类法的集合。分级结构中的各节点表示可能的类, 它可让查询检索词与其关联,并且可链接到可采用加权值分级的领域 数据条目集。附加导航信息包括关于哪些类被看作哪些其它类的属性 的说明、概念之间的附加关系、不同属性的相关性以及可能的属性 值,下面会更详细地说明。
为分级器30提供对提示的响应时,响应经过评估,以及正式请 求可采用附加限定说明来更新。分级器把相关性级别重新分配给各条 目,并且可能修改和压缩相关结果集。再次对于可能的提示来检查新 分级的列表,以及整个循环重复进行,直到用户发信号通知已经取得 满意的结果集或者系统判定没有进一步提炼可以或应当进行。在该循 环的任何阶段,所取得的结果集可按照任何适当形式(例如文本、图 像、链接等)经由输出端34输出给用户。
学习单元18的职责是在使用过程中采用机器学习技术来增强整 个搜索引擎性能。通过收集用户的响应并跟踪特征之间以及对象与特 征之间的相关性来积累用于学习过程的数据。学习过程的输出实现为 诸如分级器30、解释器22和提示器32之类的系统其它组件使用的 表中的修改。
学习过程由脱机准备的两个相对静态的基础设施支持并涉及其 中的数据的修改:领域特定知识库26和索引器36,其操作在下面论 述。
如上所述,当前实施例以二阶段方式进行查询解释。第一阶段解 释各查询,并产生正式请求,用于以尽可能广泛的检索词从数据存储 器中检索条目,以便确保良好的查全率以及良好的覆盖。在第二阶 段,提示和响应的交互循环用于对结果的工作集重新分级和进一步提 炼,以便确保良好的准确度。
数据检索的过程由来自用户的初始请求来触发。该过程从上述两 个阶段中的第一个开始,即,增强和扩展请求以覆盖与查询密切相关 的条目以及与多义查询的竞争解释有关的条目。查询中的多义性可能 具有词汇、语法、语义的起因,甚至因备选拼写校正而引起。多义性 也可能由于可能与请求相关、但相关程度较低的数据存储器条目而引 起。
在一个实施例中,在这个第一阶段准许多义查询中的所有可能的 意义。在其它实施例中,进行判定以便优选某些意义。在又一些实施 例中,向用户发送提示,要求他解决多义性。在一个特别优选的实施 例中,在不同的情况中应用以上三种策略中的不同策略。例如,某种 多义性可通过简单语法检查以揭示拼写修正产生正确语法结构来解 决。然后优选具有正确语法结构的形式的修正查询。语义处理可用来 确定在其中可选取优选意义的上下文。
在查询中的多义性解决之后,所产生的正式请求用来搜索数据 库。把分级结果或其概要与问题和/或适合分级结果的当前组以及适 合用户的预期响应的其它提示一起返回给用户。用户对这些提示的响 应则用于对结果集进行提炼、重新分级以及进一步提炼。提炼继续进 行,直到用户发信号通知结果令人满意。在一个备选实施例中,最初 仅向用户发送查询,以及提炼过程继续进行,直到搜索引擎10确信 已经把结果减少到有用数量或者直到满足用于最后确定结果的另外 某个标准。
本领域的技术人员清楚,在许多情况中,可以明确地分析初始查 询以便仅检索小的条目集。在这种情况中,可显示小的相关条目集, 而无需进行前面所述的对话过程。压缩之前的查询的扩充的二阶段过 程的使用允许从宽解释请求,从而增加查全率,同时,通过重复提示 和结果空间的压缩得到准确度。在过度广泛的初始请求-所谓的“几 乎为空”请求的处理中,二阶段过程特别有利,提示阶段则可通过与 用户的交互变换为反映用户思想的精确请求。实际上,一个优选实施 例包括适当提示集来根据相关数据存储器中的资料处理甚至实际为 空白或空的查询,从而引发用户的想法。此外,两个阶段之间可进行 修改,以便支持以不同于存储资料时所用语言的语言进行的查询。也 就是说,查询解释阶段包括把表示产品及其属性的外语单词以与那些 单词的其它任何同义词相同的方式处理的能力。外语查询翻译不可避 免地受到翻译的固有多义性的影响,但是,二阶段过程最好是能够以 与它处理其它任何多义性相同的方式,通过提问来消除这种多义性。
一般来说,请求和/或查询可采取正式或非正式的多种形式,通 常取决于用户的专业水平和他正寻找的资料种类。当查询为文本并且 以非正式自然语言制订时,初始扩充阶段包括解释分析阶段。分析阶 段最好是用来转换非正式查询以便具有正式请求模型或格式。借助于 包含通用自然语言处理的数据的一般知识库24,通过语法和语义方 法的组合系统地剖析查询。与数据库(数据存储器)的主题领域相关的 概念知识(本体论和分类学)和词汇知识(用来表达概念的单词、短语以 及措辞)是知识库中使用的数据的种类的实例,并且可存储在特定知 识库26中。另外,特定数据库26包括从数据存储器或数据集中的条 目储存的统计数据。下面论述一般和特定知识库对24和26。
对所接收文本查询(或者从其它任何形式、如语音转换为文本的 查询)使用剖析,以便(1)检测单词、短语和措辞(以下统称为‘词汇检 索词’)的存在,它们在特定知识库中可能表示重要概念,因而表示 数据条目的重要分类;(2)检测其它任何词汇检索词;(3)可能采用语 法和语义分析来确定所检测词汇检索词之间的语义/概念关系。所检 测的重要词汇检索词的分析包括判断它们是否表示对象类(例如衬 衣、电视机等)或者属性类(例如颜色、材料、价格等)的值,它们是否 具有备选解释,以及检索词的任何解释是受到查询的其它部分(如果 有的话)的解释的支持还是被削弱。已标识值则用于把查询转换为机 器可读正式请求的形式,以便在数据库中进行实际搜索。另外,解释 分析过程还对每个解释分配置信等级。
以电子商务门户站点的数据集作为实例,查询分析最好是最初以 这种方式检测指定商品(衬衣、鞋、书籍等)-有时指一组可能的竞争 商品(例如‘pump’-一种鞋或抽运装置)-以及指可能在查询中指定 的各种属性值,例如颜色、材料、样式、价格范围等。
例如,成功的剖析采用语法结构来区别其中所指对象为衣架的查 询“外套衣架”与其中对象是外套且“防水”为属性的“防水外套”。
再来看后端单元16,为了帮助匹配过程,条目可预先编索引, 其中的索引包含指定数据条目的分类值的注释。在这种方法中,索引 器36一般脱机用于采用关于各种概念维(例如对象和属性)的分类值 和/或表达这些分类的、可能出现在对相关主题域的搜索请求中的类 型的关键字来注释数据条目。在上述电子商务门户站点的实例中,这 些可能是商品说明和产品属性值。条目也可采用同义词来增强,即等 效检索词,包括首字母缩写词和缩略词、上位词(为更一般检索词)、 下位词(为更多限制的检索词)以及其它可能相关的搜索检索词。分配 给数据条目的各分类值采用置信等级进行补充,它反映系统在那个分 类中的置信度,和/或表示那种分配的正确性的估算概率。
脱机索引器不是必要的,在没有脱机索引器的情况下,针对上下 文、分类值和关键字的条目分析可在匹配阶段联机执行,下面会更详 细地说明。
除其它因素之外,通过分配给成功匹配的查询的各个成分的重要 性,确定正式请求与任何数据条目之间的匹配强度。一些特征设置为 比其它的更重要-例如,表示商品类的特征(值)设置成认为远比产品 的属性值重要。因此,在对绿色外套的搜索中,把比仅为属性的“绿 色”更大的重要性附加到作为商品的检索词“外套”。虽然蓝色外套 是绿色外套的适当替代品,但绿色衬衣则远非绿色外套的适当替代 品。还可使用关系的强度。同义词最好是提供比上位词更好的概念匹 配,以及系统在各种已提取及分析的特征中具有的置信度反映这个重 要性等级。查询解释和数据条目分类的置信度等级还用来影响结果的 分级。系统在查询的特定解释中的置信度越高,则相应匹配数据条目 的排名越高。类似地,系统在数据条目的特定分类中的置信度越高, 则在那个分类值以相关方式匹配搜索标准时可能排名越高。
最后,通过学习哪些词汇检索词是指条目的哪些类以及哪些响应 可能用于不同的预计条目,采用学习单元18,机器学习技术可用来 改进性能。学习单元最好是采用正发生的搜索结果来更新上述概率矩 阵。学习数据可能是普通或者个人化的,下面更详细地进行论述。在 个人化的情况中,各用户具有个人化的概率矩阵。
过程流概述
下面是对处理输入查询的整个过程流的一般概述。如以上针对图 1所述,优选实施例的过程包括对数据联合处理的前端以及后端的操 作,后端首先采用各种分类技术把数据分类为预定类,并向可搜索索 引添加分类信息,以及前端处理查询,然后搜索已编索引数据。但是, 该过程可以仅采用前端单元或者仅采用后端单元来实现,取决于实际 实现要求和上下文,下面将进行描述。也就是说,前端单元14和后 端单元16在某些有关应用中可独立运用。现在参照图2,前端单元 14包括解释器22、匹配器28、分级器30以及提示器32等组件,而 后端单元16包括索引器36。一般知识24和领域特定知识26由前端 以及后端使用。
前端组件14负责分析用户查询和响应。具体来说,解释器组件 分析用户查询。匹配器单元则从数据库(DB)中检索匹配所解释需求的 数据条目。所检索条目的分级由分级器执行。
后端组件16负责对数据库条目预先分类,以便将其连接到可能 的查询成分(因为预计查询成分表示类)。分类过程具有两个主要方 面:特征提取和条目关键字强化,它们两者均增强前端执行可能的未 来查询/条目匹配的能力。特征提取把条目分类为特征分级结构,例 如:沿着商品、材料、颜色的维等。所提取特征在采用关键字和查询 短语的普通搜索环境中以及在设置用于采用预定义类别浏览的搜索 环境中有用。关键字强化在任何搜索环境中都有价值。
当后端与前端结合使用时,后端所提取的分类特征可用来形成动 态提示,以及后端所应用的强化降低前端匹配过程的负担。
后端索引过程可以是手动或者自动的,或者它们的组合。从前端 来看,对于操作的能力没有影响,无论数据库是经过手动还是自动索 引。但是,会理解,索引的等级可能影响前端操作的结果的质量。即 使数据条目没有由后端预先分类,前端也可操作。没有由后端执行的 数据库条目分析可在对条目进行匹配和分级时由前端执行。
下面是只采用前端而没有同时使用后端的两种应用:
1.电子零售-结构化数据库。前端单元14与联机客户机配合使 用,客户机的数据库包含已结构化的商品信息,其结构包括商品的分 类特征。商品条目可包括商品名称、类别、价格、厂商、型号、尺寸、 颜色、材料等。例如,这种结构化信息特别可用于零售电子业中,其 中,类似描述的消费者电子商品具有比较一致对应的特征。因此,前 端能够相当轻松地将所请求特征与商品特征进行匹配,然后制订提示 以缩小结果列表,最后显示最适合用户请求的结果。当信息最初适当 结构化时,可预计后端预处理只是或多或少地增加搜索有效性。
2.即时编索引-非结构化数据库。作为第二实例,前端单元14可 与完全未分类数据库、即具有特征但不是一致提供的条目的数据库配 合使用。前端以匹配增强查询的那些条目开始,然后分析所检索条目 的相关特征,采用它们制订提示以缩小结果列表。
还能够单独使用后端单元16而无需前端单元。随后存在两种情 况,其中,单独使用后端单元可能是有用的。
1.浏览树。许多信息站点提供浏览树。或者手动(通常的情况)或 者采用固定搜索向树添加条目。树的叶可基于对象与特征类的任何组 合(例如“女士的高跟鞋”)。后端单元16的索引器36的使用首先可 创建这种浏览树,其次使新条目的编索引自动进行以及得到改进,使 得它们放置在浏览树上的适当位置。
2.基于特征的浏览。许多站点要求用户标识预期特征,然后为数 据库条目提供那些特征。后端单元16的索引器36可使条目编索引自 动进行以及得到改进,使得检索更全面且更准确。
虽然前端和后端组件彼此独立,但是要指出,它们每个所执行的 过程是相似的,以及它们之间的工作分配是灵活的。它们两者的合作 使用存在显著优点。前端和后端单元的配合的一个优点是学习单元18 的增强有效性。学习单元18其中还从用户响应学习关于用户在其查 询中使用的检索词与最终检索条目之间存在的关系。为了采用例如可 通过上述方式收集的这种关系信息来注释相关数据库条目,学习单元 在完整系统中最佳地实现。然而,学习单元可成功地结合为只包含前 端单元的系统的一部分,在这种情况中,它记录上述关系以便用于后 续查询的分析中。
知识库
为了顺利进行1)数据条目的分类以及2)查询的解释,使用知识库 (KB)。下面给出与这种KB的一般结构以及可支持当前实施例的搜索 引擎的各种组件的方式有关的详细情况。知识库支持前端以及后端操 作。
如上所述,KB由两个部分组成,即一般词汇知识部分24和领域 特定知识部分26。一般词汇知识部分24是一般语言部分,它包含具 有形态、语法和语义注释的词典、各种单词关系的百科全书以及类似 一般信息的其它来源。领域特定部分26包括词汇概念本体论,它设 计成支持搜索引擎的上下文中的信息分析,以及在一个优选实施例 中,还可采用特定数据库中的条目种类的知识来定制。
再次重点放在电子商务环境中搜索产品,商品/属性知识库 (CAKB)是词汇概念本体论方案的一种可能实现,被特别定制为对于 在产品搜索上下文中的文本数据的分析过程中出现的分类任务的帮 助。明确地说,对于电子商务领域,最重要的分类任务是:
a)正确识别商品检索词,例如衬衣、CD播放机。
b)正确识别作为性质或特征的属性值检索词,例如蓝色。
c}识别其它各种检索词,它们可能帮助或阻止前两种任务。例 如,单词‘颜色’涉及属性维,但它在文本中的出现可帮助属性值检 索词的解释,例如在“颜色:蓝色”中。表示测量单位、地理位置、 常见的名和姓等的检索词的识别可帮助来自文本描述的分类过程。作 为另一个实例:单词‘仿造’不表示任何商品或属性,但关键性地影 响表达‘仿造钻石’的解释。
为了执行以上分类任务,CAKB包括商品统一网络(UNC)和一般 属性本体论(GAO)两个主要组件以及导航方针(NG)和商品属性相关 矩阵(CARMA)两个支持组件,现在进行简要说明。
商品统一网络
商品统一网络(UNC)包含有关商品的词汇以及概念信息。在词汇 方面,UNC包括作为商品名称(主要是名词和名词短语)的检索词的大 列表(单词和多词表达),每一个例如非限制性地采用唯一意义标识符 (USID)、如GUID来标记其意义。因此,诸如“外套”、“大衣”、 “防水衣”、“防风衣”、“斗篷”、“雨衣”、“长雨衣”之类的 共用单一商品意义的检索词可分组在一起,并给予单个唯一意义标识 符。
在UNC中支持两种主要的词汇关系:同义关系-同义检索词,被 标记为具有相同USID,以及一词多义-多义检索词,具有一种以上意 义(即可能表示不同类型的商品),它们采用多个USID来标记,每个 意义用一个。以这种风格,UNC还包含可帮助在上下文中给出的一 词多义商品检索词的各种意义之间消除多义的数据。因此,对于前一 个实例的检索词“coat”在短语中的出现、如“a coat of paint”,可 被给予第二意义标识号。虽然单词“coat”是表示外套或涂层的相同 字符串,但是只要搜索上下文被涉及,则两个完全不同的产品被涉 及,因此,两种不同的意义被标识,并且在它们之间出现多义性的可 能性。在任何给定情况中应用于“coat”的正确标识号可从上下文中 确定。因此,涂漆和外套具有颜色属性,但是其中只有一个具有容易 有羊毛或棉布的值的材料属性,其中只有一个容易具有“快干”属性。 为了找出多义性,处理算法要求足够详细的知识库。然后,可通过把 可用数据与知识库进行比较来查找解决多义性的属性,或者通过向用 户发出适当提示,来解决多义性。
在概念上,UNC本体论支持两种关系:上位关系和部分-整体关 系。UNC中的商品排列为经由ISA链接构成的分级分类法,例如T 恤是一种衬衣(衬衣是T恤的上位词),而反之,一种衬衣是T恤。ISA 链接是表达‘...是一种...’的概念对应物,并且是AI、NLP、语言 学等领域的技术人员众所周知的。此外,UNC还包括部分-整体关系, 即,该对象类的说明是其它对象类的一部分或成分。由于任何商品可 能属于一种以上的高级类别(例如,曲棍球裤既是一种裤子又是一种 运动器材),在技术上,商品的UNC分级结构不是树,而是有向非循 环图-它是一种图,其中作为商品的任何节点可能具有多个父节 点,但不允许循环链接。
UNC的词汇方面的基本目的是允许在文本分析过程中识别商品 检索词。UNC的概念(分类法的和部分-整体关系的)部分的基本目的 是指定概念关系,它们可能并且往往的确帮助(产品的或者对产品的 请求的)文本描述的概念分类,并且还有助于多义检索词的消除多义 性。
一般属性本体论
一般属性本体论(GAO)以类似于UNC的方式包含关于商品属性 的信息。在词汇上,GAO包括作为商品属性的名称的检索词的大列 表,每一个通过相应的USID、即如上所述的唯一意义标识符来标记 其意义。如同UNC中那样,属性检索词的同义关系和一词多义在GAO 中通过USID机制来反映。因此,从词汇角度来看,UNC和GAO极 为相似,并且组成注释本体论的互补部分。此外,存在单词具有商品 意义和属性意义时的情况(例如,‘denim’表示牛仔裤或者表示作为 许多外衣属性的牛仔布),这种单词因而在UNC中具有一种意义而在 GAO中具有另一个意义。
在概念上,GAO是分级结构的集合。对于UNC,在技术意义上, 各分级结构是有向非循环图。各属性维、如颜色、布匹等是属性值的 自含分类法分级结构。要注意,分级结构在一些情况中可能相当平 面。这类分级分类法也经由ISA链接构成(例如蓝色是一种颜色,深 蓝是一种蓝色,反之,一种蓝色是深蓝)。属性维可包括属性值,并 且还可包括其它属性域作为子域-例如,物理材料的域可包括布匹 的域。
单词的不同意义可包含在不同域中-例如,‘gold’的一种意义 可包含在颜色的域中,表示金色。另一种意义可包含在材料的域中, 是作为材料的黄金。另一方面,单词的相同意义可包含在不同的域中 -例如,‘cotton’可包含在布匹的域中以及材料的域中,或者数据库 可经过构造,使得材料包括布匹。
UNC和GAO最好是密切结合在CAKB中。对于UNC中的各商 品,提供详细说明与那种商品相关的属性和/或属性值的说明。此外, UNC-GAO中的信息最好是包含关于特定商品是否仅针对相关属性 的值的有限集合来分析的指示。
此外,分级结构之间的结合可允许各属性检索词可追溯到它相关 的商品。诸如价格、商标、豪华状态、关联主题/人物之类的某些属 性具有极广泛的适用性,在许多情况中,可能与任何或全部商品关 联。这种情况最好是在分级结构之间的结合中以及在分级结构内得到 反映。这类分类学关系可例如指定“Darth Vader”与“星球大战”而 不是与“哈利波特”相关,从而影响查询的解释和数据条目的检索。
GAO的词汇方面的目的是允许在文本分析过程中识别属性检索 词。GAO的概念分类法方面的目的是指定概念关系,它们可能且往 往确实帮助基于产品的文本描述的概念分类。这类文本描述可能是产 品本身的描述,对于后端单元来说,从其中可导出属性和属性值,或 者,在前端单元的情况中,文本描述可能是用户输入的查询本身,即 对于具有给定属性的产品的请求。例如,已知深蓝色是一种蓝色可帮 助为了对于蓝色商品的请求检索深蓝色商品。
提供商品与属性之间的密切结合的目的是帮助分类过程,其方式 是,首先为各商品提供限制,当指定商品时可根据它适当预计属性, 其次允许一词多义商品和属性检索词的消除多义性。例如,在手表的 上下文中,‘gold’可能表示一种金属,而在T恤的上下文中,该词 可能表示颜色。类似地,在后跟高度的上下文中,“pump”可能表 示一种鞋,而在水力学的上下文中,则很可能表示液体循环驱动部 件。
导航方针(NG)
KB的导航方针组件提供两种功能性,因此最好是由两个部分组 成:搜索导航树(SNT)和提示清单(PR)。
SNT是一种组件,它允许定义给定数据库的导航方案,以便允许 以类似于浏览目录树的过程的方式在数据库(例如电子商务目录)中 导航。SNT采用UNC作为商品的分级结构以及采种GAO作为属性 和属性值的KB,并使所得结构可作为统一导航树、通常作为有向非 循环图供搜索和导航算法使用。也就是说,它允许基于商品和属性检 索词以及两者之间的相互关系的同时导航。另外,SNT允许这些知识 库的灵活性和定制(通过编辑功能),而没有实际上改变UNC和GAO 中的数据。灵活性和定制是需要的,因为核心词汇概念本体论适合分 类任务,而搜索和导航任务则可能需要本体论的稍有不同的视图。例 如,SNT允许引入新的类,例如表示各种商品的主题分组的节点;整 个分支到单节点的折叠;以及把特定商品与特定属性值结合为新种类 的实体的节点的创建,等等。明确地说,它允许定义新的主题节点, 它们可能不是实际的商品或属性值,而是反映特定的语义类别,例如 “销售”、“拍卖”、“季节礼品”或类似检索词。SNT节点被构建 为识别匹配用户请求的产品的相关类别。
NG的第二部分、即提示清单(PR)组织搜索引擎前端的提示器组 件所需的数据和定义。PR定义集合“缩减提示”,可把这些提示提 供给用户以帮助在搜索会话期间提炼相关的所检索数据条目集。一般 来说,缩减提示的集合取决于可用于(或者经由即时编索引可能变为 可用于)给定数据库的数据条目的分类维和值。NG允许定义实际的可 用缩减提示集,以便适应数据库管理人员的具体需要、偏好和策略。 例如,NG可定义哪些分类维不应当用作提示,哪些提示应当优先于 其它哪些提示,等等。各提示反映给定分类维,例如商品类型、颜色 等。NG组件允许指定对于提示的答案集的限制-例如,指定提示可 提供多少不同的答案选项,甚至指定允许哪些特定值(SNT节点)作为 给定提示的答案选项。大家注意,清单中对于提示的每个答案选项仅 被映射到一个SNT节点,以及最好是存在没有包含在映射范围内的 许多节点。未包含的节点主要反映很具体的数据,它们可在用户明确 请求它们时被标识,但没有作为那个特定问题的可能选择常规提供。 例如,如果初始查询只是“衬衣”,以及搜索引擎决定向用户提示优 选颜色,则通常只向用户呈现基本颜色的小集合、如红色、蓝色、黄 色等,作为答案选项(除非用户界面考虑到自由文本答案)。但是,如 果用户最初寻找“淡紫色衬衣”,则重要的是标识那个具体颜色,它 最好是已被定义为SNT中的节点,但没有由任何答案映射到颜色问 题。
提示清单的另一个重要方面是它确定任何给定查询的上下文中 的不同提示的相对重要性的能力。例如,当用户所寻找的商品为T 恤时,与颜色有关的缩减提示可能被认为比商标提示更为重要。但 是,当商品是电视时,商标提示可被认为比颜色提示更为重要。相对 重要性值可用于对提示进行排序,以及原始或全局重要性值可通过考 虑用户在回答问题时的偏好和/或电子商店自己对要询问其潜在顾客 的问题的偏好来提炼。
最后,对于各提示和可能的答案选项,NG可存储呈现给用户的 实际提示标签。标签可采取文本问题(例如“您更喜欢什么颜色?”)、 文本标记(例如‘黑色’、‘白色’等)、图像等的形式。
商品-属性相关性矩阵
电子商务目录搜索引擎的一个优选实施例采用商品-属性相关性 矩阵(CARMA)。CARMA是一种最好采取表格或矩阵形式的知识结 构,它包含概率相关值,每个值测量诸如颜色、长度、尺寸等的属性 类型/维或者诸如蓝色、绿色、小等的属性值以及给定商品或商品类 的关联的可能性。在一般情况中,对于给定数据库,可建立类似的矩 阵来测量类维之中、类维与类值之间以及类值之中的关联。如果数据 存储器条目已经采用适当的商品和属性分类来注释,则商品c和属性 a的表格条目包含两个数字:具有商品c的所有条目中以及具有属性 a的所有条目中具有这个商品和那个属性的条目的百分比。
来自CARMA的数据可通过许多方式来使用;这里将说明查询分 析中的单词意义消除多义性的一个优选使用。
1.通过同时出现的属性值对多义商品检索词消除多义性。例如, 查询可能包含检索词“cotton bra”。在零售上下文中,检索词“bra” 具有两个意义,一个表示女性的内衣,另一个则为汽车配件,即车辆 前端外罩或延伸部分。但是,cotton(棉布)是相应属性为布匹的属性 值,以及在CARMA中,棉布布匹的值仅对于“bra”的意义1才是 相关的。汽车零件一般预计取塑料或金属的值。
2.通过同时出现的商品检索词对多义属性检索词消除多义性。例 如,在“emerald necklace(翡翠项链)”中,“emerald”是多义的(宝石 或颜色),CARMA可能指定颜色维对于项链不相关,因此优选宝石 的意义。在“emerald t-shirt(翡翠色T恤)”的情况中,优选颜色意义。
3.商品检索词和属性检索词的相互消除多义性:例如,在“gold ring(金戒指)”中,“gold”具有商品意义(一块金)和属性(材料)意义, 以及“ring”具有若干商品意义。但是,CARMA可能指定属性-材料 意义中的“gold”对于珠宝物品意义中的“ring”极相关,因此,优 选意义的这种组合。
4.提示清单也可受益于CARMA矩阵,下面在提示器描述中进行 详细说明。
索引器
索引器36是受关注数据库中的条目的自动注释的过程的一般集 合,其中对于各条目,导出稍后可由各种系统组件、如匹配器组件28 考虑的分类信息。如上所述,数据条目通常在数据库中伴随称作自由 文本的文本描述,以及索引器的目的是从自由文本中导出所需维数上 的数据条目的分类;分类通常与条目的对象类型和条目的特征/属性 有关。索引器算法直接从自由文本描述中提取这种信息,并且还间接 通过把新条目的描述与先前分析和检查的条目的那些描述进行比较 来提取。索引过程可包括自由文本到机器可读注释的转换,机器可读 注释则可被添加到条目记录的电子形式中。从功能角度来看,索引器 36包括有限范围、但仍然是有用的文本理解的功能。
在电子商务的上下文中,包含在数据库中的条目通常是由产品记 录表示的商品。产品记录是文本条目,通常由销售和市场人员编写, 并且可包含被写为标题的产品名称(PN)以及作为跟随标题的文本块 呈现的产品描述(PD),采取句子样式或者作为列表中的一系列记录。 诸如一个或多个图像、价格、供应商名称以及目录号之类的附加格式 化信息成分也可在自由文本中呈现。在这种情况中,索引器最好是尝 试从自由文本记录中提取产品的商品分类(CC)及其属性、性质和特 征。第一个任务通过自动CC索引(ACCI)组件来实现,以及第二个通 过一般属性算法(GAA)来实现,它们两者均在以下进行描述。
自动CC索引(ACCI)
当前用于把产品分类为商品类的ACCI过程包括CC提取或推导 的两种方式:文本分析方式(TAA)和相似性方式(SA),在其实现中最 好是包含若干算法。从文本分类和IR向量空间模型中提取,ACCI 过程采用语言推动自然语言处理(NLP)方法和统计分类方法来实现其 目的。各方法具有其优点以及局限,并且两种方法的组合用于一个优 选实施例中,以便成功地覆盖最广泛的可能情况。
这些方法、即统计和语言方法的每个开始进行并达到其结论,而 与所使用的其它任何方法无关。当每个算法对产品进行表决或者进行 其分类时,下面要描述的仲裁过程解决冲突,并对各产品分配最终分 类。
文本分析方法
文本分析方法的起始点如下所述。虽然制造商和供应商倾向于采 用模糊目录号和参考ID来标记产品,但人们一般通过采用指定产品 的商品类的单词或短语来表示产品。这类单词和表达一般还见于产品 的文本描述中,它们由销售和市场人员编写以便传递给可能的购买 者。简单地说,单词‘衬衣’将可能出现在衬衣产品的PN或PD中。
文本分析过程用来健壮地标识和提取这类标识检索词,并使用它 们来提供相应产品的商品分类。应当指出,任务不是这么简单的,因 为除了作为产品的CC名称的检索词之外,文本还可包括大量附加单 词、其它CC名称、具有多义意义的单词、同义表达等。因此,文本 分析特征要求语言处理能力、推导功能以及丰富的相关知识库、 CAKB,以便健壮且有效地实现其目标。
文本分析过程最好是最初对文本执行浅层剖析,提取关键字,并 将其匹配CAKB中的检索词的受控词汇表,然后再进行一些推导以 便解决有问题事项(该过程自动定义和检测有问题的情况)。它不仅产 生商品分类,而且还对各产品产生产品检索词列表(PTL)-表示产品的 关键方面的检索词表。一旦产生,该列表随后可被用作条目索引的起 始点。
现在参照图3以及参照图4,它们是详细说明文本分析特征的主 要步骤的简化流程图。该过程最好是支持以下步骤的执行:
1.预处理。文本的预处理包括文本的标记化、浅层剖析以及词性 (POS)分析。
2.标题识别。在这个阶段,尝试从自由文本以及从数据库中可用 的其它数据来确定产品是否为内容携带实体(CBE-例如书籍、音频 CD、电影等)。这类产品以不同方式来处理,因为其自由文本中见到 的检索词对于分类目的可能误导。例如,单词“白衬衣”通常可能表 示产品商品为‘衬衣’并且颜色为白色,但如果该产品是标题为“乔 的白衬衣”的书,则分类过程必须不同。
3.数据提取与分类。在文本分析的数据提取阶段,通过从文本的 PN以及PD部分提取文本数据(关键字和短语),系统产生产品的初始 PTL,并把所提取文本数据分类为相关术语分类组、如商品名称或属 性。一般来说,检索词的分类涉及例如通过CAKB查找表来查找所 提取检索词所属的一般类。当所提取检索词实际上在CAKB中找到 时,重要信息、如检索词的一般类(其“角色”)-是否为商品(CC)、商 标名称、属性名称/值等-从KB中被检索并添加到PTL。在这个阶段, 多义性和矛盾没有被解决,它们仅被聚集。
4.数据推导。在数据推导阶段,可推导文本中没有给出的附加数 据。所推导数据则被添加到PTL。数据推导的一种方法称作商标型号 商品[BMC]联属关系。BMC描述商标、商品和型号之间的已知联属 关系,并且如果商标和型号名称见于文本中,则允许例如产品CC的 推导(当没有明确指出时)。
5.商品分类。商品分类阶段涉及一组过程,它们在数据收集阶段 把聚集的各种数据结合到PTL中。各种过程检查不一致性,解决多 义性,采用来自词汇知识库(例如UNC)的分级信息,并通过使用来自 各种来源的支持证据来判定产品的最终商品分配,以便促进最合理的 分配。另外,该过程还自动计算成功分类的可能性的置信等级。
6.PTL的提炼和增强。提炼阶段提供提炼PTL数据的词汇扩充 (添加同义词、下位词等)以及PTL条目的最终加权。加权PTL条目 则可用于把适当的注释添加到条目索引记录。
图3的方法的优点在于,即使在苛刻条件下,即关于所索引的特 定数据库了解极少以及不存在先前分类产品的库存时,也能够产生有 效注释。本领域的技术人员通过阅读上述说明会理解,在这类苛刻条 件中采用该方法的一个缺点在于,成功分类的程度取决于大知识库, 它包含与可能遇到的商品种类的可能主题域及子域的各个区域有关 的大量信息。
B-相似性方法
相似性方法与文本分析方法完全不同。相似性方法基于新条目的 文本描述与先前分类条目的描述的比较。相似性方法基于以下假设: 条目的真正商品类与具有最相似描述的先前分类的其它产品相同。可 通过IR和统计分类中众所周知的方法,即通过把条目(产品)表示为 检索词向量,由所谓的余弦测量或其变体之一测量这类向量的相似 性,来计算产品描述之间的相似性。所谓的余弦测量基于余弦值,它 是两个向量共有的检索词数量为了归一化而除以两个向量长度之 积。
技术人员会理解,直接实现相似性方法可能因大处理负荷而加重 系统负担,因为要求系统计算给定向量的余弦以及所有可能的成千上 万可用且已经分类的数据条目的余弦。因此,在一个优选实施例中, 在给定向量与来自数据库的较小数量的所选及典型数据条目之间进 行比较。
计算哪些向量实际上与当前数据条目最相似的方法可采用许多 标准中的任一个。在一个优选实施例中,两个算法用于计算中来实现 相似性方法。这些算法称作聚类算法和邻域算法。
在聚类算法中,先前分类产品的数据库用来产生属于相同CC(商 品类)的产品聚类。对于各CC,来自那个CC中包含的所有产品的文 本的单词的出现频率被制表,以及典型向量(CC聚类的质心)被构造。 新产品的分类涉及那个产品的检索词向量与IS中的每个这种CC聚 类的质心的比较。最近的向量的CC则被分配给新产品。
采用聚类算法方法的分类比较快,因为与质心而不是实际产品向 量进行比较。如果各质心表示十个产品,则实现计算复杂度的数量级 减小。
邻域算法基于统计分类的K个最近邻域(KNN)方法。大体上,新 产品的分类首先要求那个产品的检索词向量与IS中的每个先前分类 产品的检索词向量的比较。取最接近新产品向量的K个向量,算法 向新产品分配与K个最相似产品的大多数关联的CC。作为一个变 体,除大多数之外的不同标准也可用于这个上下文中。
一个优选实施例包括在检索词向量中出现的检索词的高级差异 处理。与候选产品或产品类具有语义相关性的这类检索词可接收向量 中的更高权重。语义相关性可从知识库中获得。另外,一个优选实施 例包括若干方法,它们把向量空间缩减到最相关向量,以免原本可能 导致的计算开销。
利用如上所述的聚类和邻域算法的相似性方法需要一组先前分 类产品以便工作。其次,即使采用一组先前分类的产品,在处理与先 前分类集中不同的商品或商品类型时仍可能不成功。第三,没有实际 保证描述的相似性暗示商品类的相似性。然而,在有利条件下,相似 性方法可产生有用结果,特别是当适当复杂的使用由知识库信息组成 时。
技术人员会理解,可最佳地对不同索引任务选择上述各种方法的 不同组合,具体取决于了解或理解数据库的程度以及可用知识库的性 质或类型。
仲裁过程
如上所示,可采用若干方法来实现至少到商品类、即CC等级的 产品分类。各方法可提供一种或多种CC,最好是伴随适当的置信等 级,它们是其最终分类候选者。仲裁过程的作用则是解决分类方法之 间的分类不一致,以及还提供最终分配分类的单一最终置信等级。即 使在各方法只提供一种CC候选者并且所有方法同意的情况中,仍然 需要该过程来把最终置信等级分配给所采用的分类。
设E M,CC 为分类方法M附加到它把给定产品到某个CC的分配的 证据/置信度值(在0-1范围中);显然,M对于那个产品提出的CC(或 多个CC)候选者将是使E M,CC 为最大的那些。在M提出的多个候选者 的情况中,分级可看作概率分布,使得在这种情况中可假定 在当前实施例中,允许各分类方法根据需要提供一定数量 的最佳候选者。然后,仲裁过程在所使用的各种方法提供的所有候选 者中选择那个产品(数据条目)的最终分类。
设W M,CC 为把产品分类为特定CC时M的平均过去成功率。平均 过去成功率可能只是查准率,或者更恰当地说是众所周知的信息理论 F量度:
其中,β是相对于查全率给予查准率的重要性。
用于由分类方法M把产品分类为商品类CC的所调整置信等级 现在可表示为CR M,CC =(E M,CC *W M,CC )。
当选择给定产品的最终分类选择时,仲裁过程可实现多个判定表 决策略。多个这类策略是本领域的技术人员已知的,并且包括称作独 立策略的那些策略以及相互一致性策略。上述策略的多个混合也是本 领域的技术人员已知的。
独立策略假定各分类方法的分类作用与其它策略无关。独立策略 的最简单实现是采用多数表决:产品的最终CC是大多数方法同意的 一个。一个优选实施例采用加权表决,使得各方法对其最终候选者的 任一个进行的表决通过一组参数被加权,这些参数反映归因于那种方 法的重要性和/或在对产品分类中的平均过去成功率。因此,最终(胜 出)分类是使按M重要性参数I加权后所有方法M的所有候选者调整 等级之和最大的一个,即:
I的值可反映方法M在所有类上的总过去成功率,例如,I M. =平 均W M (值得注意,当类的总数很大时,任何特定CC的W M,CC 只对平 均W造成可忽略的影响)。如果所有方法被认为相等,对于每个M, I M =1。
会理解,如上所述的方法的权重(I M )可能是方法选择的权重的补 充或替代(W M,CC )。
本领域的技术人员会理解,可采用遵循上述路线的更复杂的表决 策略。此外,可允许仲裁过程选择一个以上CC作为最终分类;例如, 它可选择TotalCR CC 超过某个门限等级的所有CC,等等。
相互一致性(MC)策略基于以下观察:与只考虑各方法的独立成 功率相比,考虑方法的部分集合的成员同意的平均过去成功率在整体 上提供对于成功分类的概率的更好估算。
更详细地考虑基于MC的策略,假定使用三种分类方法M 1 、M 2 、 M 3 。方法M 1 提出CC I 和CC J ,M 2 提出CC I ,以及M 3 提出CC J 。MC 方法采用先前聚集的数据来检查当这个类由方法1和2商定时到类 CC I 的成功分类的概率以及当方法1和3商定时到类CC J 的成功分类 的概率。具有更好成功率的协商最好是作为最终分类。
分类方法的子集的成员之间的相互协商的过去成功率可像前面 那样只当作查准率,或者作为考虑查准率和查全率的F量度。可对于 任何特定CC计算这种参数的值,通常当存在足够数据时,或者作为 所有CC类之上的平均值,这后一种例如当对于特定CC类不存在足 够数据时。
另外,MC策略还可考虑类别的分级性质(CC)。例如不仅在两种 分类方法都提出相同CC时,而且在所提出的CC是同级、即它们在 分级结构中具有同一个直接父时,可考虑两个分类方法之间的协商。 相同情况可适用于其它分级安排、如父和子。
可使用独立和相互策略的组合。如一个优选实施例中使用的独立 和相互一致性方法的组合如下所述:
对于存在分类方法当中的部分商定的各CC候选者,那个CC的 总置信等级TotalCR CC 计算为:
其中W MA 为相互协商的成功率,以及W M 为单个方法M的成功率。
最终(胜出)分类是使如上所述的累积等级最大的一个。
仲裁过程在其判定中指定作为置信度的量度(以及表示为概率) 的最终置信等级(FCR)考虑胜出CC的TCR CC 与其它全部候选者的 TCR CC 之间的差值,并由下式表示:
一般属性算法(GAA)
一般属性算法(GAA)是设计成提供数据库(DB)或信息存储器(IS) 中的条目的属性分类的一般设施。不同种类的属性需要不同种类的数 据和不同算法来取得成功分类。分类可有效地利用不同种类的信息, 但其质量仍然关键性地取决于基础语义信息的质量和范围。例如,如 果人们仅了解数十种颜色名称中的七种,则颜色属性索引具有低覆盖 率是不奇怪的。此外,如果没有尝试预先标识提及但没有标识颜色的 误导表达,则属性索引可能具有低精度。例如,如“green with envy(非 常忌妒)”之类的短语实际上并未指明绿色。“Snow white(雪白)”可 能指明纯白色形式,但“pure as the driven snow”则根本没有涉及颜 色。
三种补充方法由GAA用于从产品文本描述中推导属性值:关键 字提取、推导和相似性(聚类)分析。
各方法可能潜在地建议某个属性值,并且可允许那个值伴随置信 等级。在冲突建议的情况中,可应用上述种类的仲裁过程。最简单的 仲裁过程是仅保留具有最高等级的值,以及丢弃其它所有所提出的 值。
GAA提供的三种补充方法如下所述:
A-关键字提取
在关键字提取方法中,采用其中最好是存储了所有这类关键字及 其相关上下文信息的GAO知识库中的查找表来标识和提取给定属性 维的可能值的关键字。例如,如果单词“红色”出现在产品描述中, 并且存储在GAO中作为颜色值,则存在适当证据来推论该产品的颜 色实际上为红色。但是,应当意识到以下事实:产品的文本中特定单 词的出现可能不足以从其中推导那个产品的属性值。必须考虑其它文 本条件,例如在其中出现关键字的上下文。如果颜色关键字出现在短 语“available in colors:”之后,则它实际上表示颜色值的概率很高, 但在表达“Levi’sred label jeans”中,关键字“red”表示颜色“红色” 的概率极低。GAO中的各属性值关键字可具有支持和误导上下文的 关联说明。上下文例如可采用常规表达来定义。一般来说,在遇到数 据条目的文本中的属性值关键字时,GAA分析上下文信息,以便确 定在其上下文中那个关键字的可信性。
B-推导
关于属性值的某些判定可从其它已经可得到及可信的分类信息 中推导。各种推导表、如上述CARMA包含在CAKB中用于那个目 的。
GAA中可用的最一般推导规则具有以下格式:
“如果产品满足条件Ci的给定连接词,则把可能的值V1、...、 Vn的每个分配给其分类类型T”,其中C是“类型T具有值V1、...、 Vn中的一个”的形式的,以及类型是分类维(例如商品、商标、型号、 颜色等)。
推导规则还可通过给定分类的置信等级的值来调节。当根据规则 C从数据B中推导值A时,则A的置信等级将为B的置信等级乘以 C的置信等级(规则C为正确规则的概率)之积。因此,如果性别“女 性”从CC“裙子”中推导,则“女性”的置信等级将是“裙子”的 等级乘以裙子实际上用于女性的概率(极高但不是绝对的,因为可能 存在用于男性的苏格兰裙子)。
这里是这类规则的一些实例:
1.属性适当性:从已标识CC值推论某个属性维、甚至某个属性 值是否与所考虑的CC有关。因此,长度的属性对于计算机不太可能 是适当的。
2.IS-A推导:应用CAKB中出现的所有IS-A关系,例如“深蓝 色是蓝色”。这种推导也可能在不同类型之间进行,例如“从CC‘女 装’推导性别‘女性’”。否定推导(“IS-NOT-A”)也包含在这个标 题下。
3.消除多义性推导:先前记录数据可用于给定关键字的若干冲突 值或不同解释之间消除多义。因此,必须在“denim”的两个不同解 释(作为颜色或者作为布匹)之间选择,我们选择具有最高预先记录置 信等级的一个。
C-相似性(聚类)分析
相似性或聚类分析基于统计分类算法,例如支持向量机器 (SVM)。给定属性维,产品由检索词向量表示,检索词为关键字、上 下文中的短语或其它结构数据的形式的属性值。先前分类产品(数据 条目)根据相似属性值来聚类,并计算聚类质心。然后,例如采用“余 弦”测量或其变体之一把新产品检索词向量与不同质心进行比较,最 终向其分配最接近质心的属性值。
聚类方法对某些属性提供令人满意的结果,但对于另一些则不 行。当应用于服装数据库时,根据聚类进行索引在应用于性别属性时 取得90%以上的查准率,但是对于布匹属性,结果则不会优于随机 估算。
用于这种比较的KNN方法也是可行的,如前一小节对于商品类 索引中详细说明的那样。
解释器
给定用户请求,从数据库中对相关条目的检索通过把从查询中导 出的信息与可用于数据库中各条目的信息进行匹配来实现。当考虑查 询的一些成分、如商品名称比其它成分、如属性值更为重要的事实 时,匹配过程最佳地工作。
多个匹配方法是技术人员已知的。一些匹配方法、如检索词频率 /逆文档频率-TF/IDF可尝试通过统计方式来推导查询成分的相对重 要性。但是,对于自然语言查询,可通过经由语法和语义线索对查询 的成分进行分类,同时采用一些领域特定概念见识,来获得更好的结 果。因此,解释器的主要目标之一是检测查询的哪些部分携带什么类 型的重要信息。
把这个概念应用于电子商务的情况,解释器的第一个目标是检测 用户在其查询中请求的商品(衬衣、数字相机、鲜花、椅子...),是否 明确描述或者只是暗示。随后,解释器应当能够检测精确指定商品的 预期属性的检索词,从而限定可满足查询的条目的范围。属性可能是 外衣的颜色和布料、电视机的屏幕大小等。
应当注意,在这个上下文中,虽然许多属性可在逻辑上仅应用于 一定数量的商品类(例如屏幕大小不是外衣的相关属性),但其它许多 属性、如价格、豪华状态和商标适用于几乎任何商品的产品。类似地, 查询可以仅由流行人物/主题组成,无论是小说、如Pokemon、Harry Potter还是Jedi,或者是现实、如Chicago Bulls或The Beatles,而没 有商品说明。在存在以及不存在商品说明时,解释器应当能够检测这 些一般种类的属性。在相同方面,应当能够识别型号名称或目录编 号,例如DCR-PC115(Sony便携摄像机)。
为了充分处理这些种类的信息,解释器最好是执行以下功能:
-标识查询文本中的重要检索词,
-识别它们的概念状态,
-处理拼写错误,
-处理自然语言中普遍存在的词汇(单词意义)或语法多义性,
-把同义或密切相关表达识别为与相同概念有关,
-检测不相关条件,
-能够维持多义查询的多个适当解释,以及
-在高级分析不成功的情况下,提供性能质量的适度降低。
用于实现这类功能的方法的一部分如下所述。
A-查询标记化,包括标点符号和特殊字符的适当处理
B-词形归类,即各种查询检索词简化到其标准语言正确基本形 式(“词形”),以便克服咨询包括CAKB在内的各种外部源时的形态 变异的问题。
C-拼写错误校正。拼写错误校正比它看起来更复杂,因为:
a)特别是在零售业,许多“拼写错误”字符串正好是各种实体名 称。例如,Kwik-Fit是汽车维修连锁店的名称,而不是Quick-Fit的 拼写错误;
b)拼写错误也可能出现在数据库中,因此,校正一些拼写错误可 能导致相关条目的不匹配;
c)往往存在争用预计拼写的许多可能的校正,以及计算机化系统 可能在选择最适当结果时有困难;
d)咨询拼写程序获取每个字符串,同时分析错误拼写的所建议校 正的操作对于系统资源可能是很重的负担。
广泛知识库的复杂使用一般能够克服上述问题,并提供有用的拼 写校正。
D-检索词的概念状态(“角色”)的识别-主要为商品和属性-其 方式是咨询在概念上预先分类的知识库的CAKB成分。辅助说明, 例如检索词所涉及的属性种类,可作为角色的子类提供-例如在属 性=颜色、布料等中。
重要检索词往往是多词表达,为了正确识别它们,算法应当尝试 在CAKB中不仅定位单一单词,而且还定位多词序列。这再次可能 加重系统资源的负担,因为对于n个单词的查询,多达n个单词的结 果的任一个可能是重要检索词,因而需要在CAKB中查找。但是, 许多见识可在这里用来简化搜索,在它们之间,例如根据标点、介词 和连词把查询分割为子序列,以及仅在查询段中查找可能的多词序 列。
E-区别主要的焦点特征和支持或次要特征。在诸如“电视机 架”或“50”电视机架”之类的查询中,检索词“电视机”不应当识 别为商品。检索词“电视机”不是查询的焦点商品。但概念“电视机” 又不是不相干的,它对于指定所需架子的类型是重要的。因此,它具 有支持状态。一般来说,解释器能够检测概念识别检索词如何与查询 的主题相关。通过考虑文本查询的语法和语义结构-非限制性地具体 来说,考虑查询中的介词和单词顺序,来实现这种检测。例如,出现 在介词“for”或“by”之后的商品检索词可能不是查询的焦点商品。 在查询分析期间编码的这类差别对于符合要求的条目匹配和分级是 关键的。
F-识别同义词。同义词识别例如通过上述USID机制来提供, 因而对于CAKB中存在的所有同义检索词有效。在CAKB中识别的 任何查询检索词最好是返回适当的USID,它把检索词转换为可用于 所有后续匹配及其它处理步骤的概念,作为查询检索词代表。查询检 索词到概念的转换意味着,实际上依照概念而不是仅根据关键字来搜 索数据存储器。
G-查询中误导或不相关数据的识别。例如,如果查询作为整体 来看涉及诸如书籍、CD、电影、图片、海报、印刷品等的标题(在一 般意义上)之类的实体名称,则出现在查询中的明显的商品和属性检 索词可能不相关。例如,在查询为“The Lord of the Rings”的情况中, “rings”不应当被解释为商品名称。因此,解释器应当配备允许定义 和检测标准分析不相关所处的条件的过程。在相同方面,诸如手表的 “Rolex-type”、“faux-fur”、“White Linen”之类的误导属性值应 当被检测及适当处理。这类过程最好是基于适当知识库。
H-多义性解决。自然语言固有地是多义的。处理自然语言中的 多义性以及形成查询的若干不同和竞争解释的能力在面临自然语言 查询时对于搜索引擎的成功性能是优选的。在当前实施例中,多义性 按照如下方式来处理:
多义检索词在CAKB中具有多个条目,各具有适当的意义标识 符。当多义检索词出现在查询中时,它的所有CAKB列示意义标识 符被返回给解释器。解释器则采用查询检索词的不同意义来构建查询 的多个解释版本。然后可使用单词意义消除多义性的各种方法,以便 确定哪些解释版本完全无意义、哪些是有意义的以及达到的程度。显 然,仅有意义的解释版本才保留作为查询的最终分析。
具有所有解释版本、角色、置信等级等的解释器的输出是以上所 述的正式请求。
匹配器
分级器
分级器负责根据匹配用户需要(即相关性)的估算概率对条目分 级。对分级模块的输入包含正式请求以及用户对先前提示(如果有的 话)的响应的序列,以及数据库或IS条目和与其关联的任何注释。
分级阶段最好是包括以下阶段:
1.从数据库检索的条目的分级。根据明显不匹配的所选门限,一 些条目可从分级中排除。
2.相关集合的构建。这种相关集合最好是包括IS中在产生下一 个提示时要考虑的那些条目。
3.结果集的构建,可能或者应当向用户显示的那些条目。结果集 通常包含从数据库检索的、在提示过程中保留的并超过门限相关性分 级的条目。
相关性分级可考虑正式请求以及先前用户响应(如果有的话)的 不同成分的相对重要性。通过测量请求与那个特定条目之间的匹配的 强度,等级应当反映所分级条目可满足用户的似然性。分级可分解成 以下成分:
-正式请求反映用户需要的似然性
-条目的特征和属性(由索引器提取)的分析为正确的似然性
-附加关键字实际上应用于具体条目的(先验或学习)概率
-请求的各成分的角色对用户的(估算或学习)相对重要性
-分配给条目的特征可能满足请求具有那个特征的条目的用户 的概率。这些特征之间的完全匹配将返回概率1;低于完全匹配,例 如当条目商品为所请求商品的上位词时,最好是相应地减小概率,如 上所述;
-具体条目将被请求的(先验或学习)概率(又称作流行度量度);
-数据库(推广、限定等)偏差或限制;
-条目检索的成本。成本可能对于用户或者对于系统而言。
各产品的特征等级是来自以上详细说明的列表、通过在所有已标 识查询特征上相加-带有适当权重-条目特征与查询特征之间的匹配 值所计算的适当数的组合。因此,如果颜色的匹配被认为没有性别匹 配重要,则性别匹配权重将具有比颜色匹配权重更大的值。分配给产 品的最终分级最好是由相等加权数的三元组构成:商品分级、属性(特 征)分级以及其它检索词的分级号。相等且固定权重方案目的在于确 保许多分析属性的良好匹配例如不会被不良商品匹配抑制。搜索羊毛 制的蓝外套的用户可能对于看到非蓝色的羊毛外套是可接受的,并且 可能对于非羊毛材料制的蓝色外套也可接受,但对于看到蓝色羊毛衫 可能很惊讶,以及商品和属性的分开匹配考虑的使用允许与属性无关 地独立强调商品匹配。
当查询的若干解释版本(表示用户意图的若干可能解释)由解释 器返回时,条目与所有各个解释版本之间的匹配值被计算,以及最终 分级是所有版本上的加权平均值(考虑各种版本的权重)。
在得到对于提示的答案时,条目的分级被相应更新(后验)。
条目的相关集的目的是通过忽略具有满足用户的低概率的条 目,从而降低用户当作噪声的内容,来改进提示器的性能。在一个可 能的实现中,只有完全匹配包含在相关集中,表示解释器所标识的、 无论是商品特征、属性特征还是其它检索词特征的每个特征必须向被 考虑用于检索的条目提供有效匹配值,才能包含在相关集中。如果没 有发现这种完全匹配,则相关集被扩大到包括低于完全匹配,这样, 例如只有完全无法找到红色衬衣时才会提示系统考虑返回橙色衬 衣。
结果集是相关集的一小部分,其中包含具有高相关等级的那些条 目。它们是要向用户显示的条目。两种情况中的截止可能是绝对的、 相对的或其组合。
提示器
提示器的任务是向用户提供一个或多个刺激,使得对刺激的用户 响应可用于对结果集中的条目重新分级(以及过滤)。提示器可被认为 由两个组件组成:提示发生器和提示选择器。采用导航方针,提示发 生器根据相关分级条目及其性质动态构造可能的缩减提示的集合。 (提示-缩减提示,目的在于丰富关于所请求的具体产品的信息,以便 缩小可能的相关集。)
提示可能是可视或者发声的,并且可采取许多形式,通常包括提 示澄清数据和一系列响应选项。
提示澄清数据可能是问题(例如“哪个商标?”)或者命令语句(例 如“选择颜色”),或者向用户表明请求哪种信息的其它任何方法。 提示澄清数据的参数和详细信息(例如问题的确切措辞)被定义,并存 储在上述导航方针组件中。提示澄清数据可用于缩减提示(如上举例 说明的)以及消除多义性提示(例如“您指哪个意义?”或“选择适当 的拼写校正”)。提示澄清数据的使用不是必须的,因为当响应/答案 选项是直观明显的时,它可被省略。
提示可允许自由文本响应,但通常提供小的预定义响应选项集 合。响应选项可表示为:
-由例如“美国;欧洲;亚洲...”等分类法、例如“颜色:红色; 蓝色;...”等属性值列表、或者诸如“作者;日期;商人...”之类的 方面的值的请求等组成的菜单,或者提示可请求成本/价格范围等。
-浏览图,例如导航图、语义网络等。
菜单选择可以可选地采用图片来说明,特别是采用从与那个选择 相关的主(高等级)条目导出的图片。
在任何给定搜索情况中,提示选择器可根据给定的所检索数据集 来选择大量提示。但是,可能不希望或者甚至根本不需要向用户提供 所有提示。实际上,信息理论方法可由提示选择器用来估算不同建议 提示的实用性。如上所述,所接收的任何答案都能够明显影响结果集 的提示优于大部分答案仅排除少数几个条目的提示。这种方法可与可 在导航方针中定义的不同提示的成本函数结合。
在任何给定搜索情况中,提示生成器的主要任务是动态选择最适 合提示/和答案选项的列表。提示生成器检查查询解释中是否存在任 何多义性。消除多义性提示从解释器提供的不同解释中构造,以及该 过程不必引用相关集中的具体条目,但算法还考虑这类多义性的解决 是否显著缩减所检索数据条目的相关集。
作为其动作的主要过程,提示生成器考虑哪些缩减提示在搜索会 话的给定状态是相关的。这通过考虑哪些不同的分类维和值由相关集 中的数据条目‘保持’以及它们在相关集中的频率分布是什么来实 现。如果实际上选取了那个答案,则呈现给用户的所有答案选项必须 具有要呈现的至少一个适当条目。注意,呈现给用户的每个提示显然 必须具有问题的至少两个可能答案,以便对搜索过程有任何辅助。回 想一下,分类维(例如颜色、价格)定义提示,以及值或值范围(例如红 色、蓝色;或者$50-99、$99-200等)定义答案选项。在任何给定搜索 情况中,可能的提示只在相关集中的不同数据条目对于提示的分类维 具有至少两个不同值时才有效。因此,例如,如果初始查询针对衬衣, 以及相关集中的所有衬衣为相同颜色的,则提示“什么颜色?”显然 不是有效的。应当强调,任何分类维上的类值可具有复杂组织(例如 分级结构),导航方针可包括用于缩减提示的具体约束,因而动态计 算相关缩减提示和答案选项通常是相当复杂的任务。
在构建适合给定搜索情况的提示集之后,集合中的提示经过分 级,以便向用户呈现最相关的提示。提示的数量可根据诸如数据库的 性质和初始查询的查准度、用户界面的策略等环境来变化。提示的分 级反映对特定提示的答案可能使相关集更接近包含用户正寻求的数 据条目(例如产品)并且排除了尽可能多的不相关条目的程度。为此, 最好是对每个数据条目进行若干计算。一种计算是熵计算,它计算在 接收到对这个提示的响应之后标识符合要求的条目所需的附加提示 的预计数量。熵计算最好是提供对相应答案的分级值。正确的熵评估 将把较高分级以及较低熵值提供给具有匹配各答案的条目之间较少 重叠的提示。另外,其答案覆盖更多条目的提示最好是还得到较高分 级以及较低熵。应用于问题的最终分级值则通过把熵与问题的重要性 值相乘来计算。
学习器
如上所述,机器学习技术可用作增强搜索引擎性能的选项。机器 学习可应用于若干领域中的一个或多个,特别是包括以下各项:
1.通过跟踪条目的用户选择来更新条目流行度,
2.具体请求检索词样式或成分与实际所选的各个条目之间的相 关统计的跟踪,
3.属性之间的相关统计的跟踪,以及
4.通过跟踪最终选择的各条目的响应频率来改进提示选择。
为了在这类环境中实现机器学习,其中最好是还收集以下数据:
1.条目流行度:各条目被选取的频度,
2.属性频率:各属性值出现在请求中或者对提示的响应中的频 度,
3.响应性:各提示被响应的频度,决不强迫用户回答每个问题,
4.属性-条目相关性:对于各条目,在属性被请求之后选择条目 的频度,
5.响应频率:对于提示的每个可能响应,选择该响应的频度,
6.响应分布:对于各条目,在接收给定响应之后被选取的频度
7.交叉属性统计:所选属性值对之间的相关矩阵
所收集数据用来改进解释器、分级器以及提示器所用的适合给定 数据类型的表。解释器得益于更新的语义信息,例如属性频率和交叉 属性统计。分级器得益于更新的流行指数、改进的注释,最好是基于 属性条目相关性,以及更新的响应期望。提示器还得益于后者。
结论
综上所述,当前实施例的方面包括以下各项:
1.整体
a.通过首先解释查询,然后扩充查询以包括相关检索词和条目, 执行匹配,然后根据在所说的聚焦循环中与用户的对话压缩结果集, 优选实施例对所接收查询进行操作。扩充包括同义词以及分级和以其 它方式相关的检索词的添加。扩充基于解释(查询分析),它还可包括 执行查询的语法处理,以便确定哪些检索词是焦点检索词(即描述所 需对象)以及哪些条目是描述性或属性检索词,
b.一个优选实施例在数据集已经预先索引之后对查询进行上述 操作,以便组织数据集中的条目以及概念标记、同义词、属性、关联 等。
2.前端查询处理
a.优选实施例解释任何给定查询,特别是寻找名词短语,与“关 键字”或“全英文”系统、如Ask Jeeves并列的一种方法。
b.解释最好是包括把查询剖析为所搜索的名词或对象以及属 性,以便帮助搜索以及分配权重。
3.前端设施-聚焦循环。
a.前端可参与和用户的交互循环,目的在于缩小可能的相关数据 条目的数量。在这种循环中,系统向用户呈现最好是动态制订为带有 用户可选择的响应选项的问题的提示。提示的选择包括考虑当前‘会 谈’、过去全局经验以及具体用户偏好。主要考虑可能的答案如何有 效地分割所检索条目。因此,具有两个答案的问题,其中一个答案排 除数据集的98%以及另一个排除数据集的另外2%,被看作较低效的 问题。也具有两个答案的另一个问题,其中每个答案排除数据集的大 约50%但所排除部分重叠,也将被看作较低效的问题。另一方面, 具有两个答案的一个问题,其中的每个排除数据集的大约50%而且 两个答案是相互排他的,会被看作极有效的问题。
在一个优选实施例中,如上所述,系统可产生若干提示以及使用 效率和其它考虑,以便判定哪些提示应当呈现给用户。
还可在聚焦循环的任何阶段形成提示,以便获取信息,从而解决 多义性、拼写错误等。
b.前端采用分级技术,以便对搜索结果分级以及用于选择提示。 在优选实施例中,缩减提示的产生动态基于可用于信息存储器中的数 据条目的分类(而不是具有给定主题的预先编程的固定问题)。
c.动态产生对于提示的答案/响应选项。只在映射到相关集中的 至少一个当前数据条目时,才提供可能的答案。最好是还为用户提供 不响应任何给定提示的选项,在这种情况中,系统可选择呈现另一个 提示。一次可为用户呈现若干提示,或者系统可在询问下一个之前等 待接收这一个的答案。
d.在聚焦循环的任何阶段,系统允许用户表明当前结果不符合要 求。在一个实施例中,可为用户呈现包含最初检索的、但在聚焦循环 中被排除的那些内容的结果。
4.后端-数据分类和索引
a.索引最好是涉及向信息存储器中的数据条目提供分类注释。
b.为了具体实施例,某些种类的类可具有特许状态。例如,对于 电子商务目录,区分商品类与属性类之间的差异,后者对前者具有某 种从属性。
c.自动分类最好是采用基于规则的以及统计的方法的组合,两者 均使用数据条目文本的某种语言分析。如果使用不同的方法,则仲裁 可用来选择最佳结果。
d.
5.学习单元的使用
机器学习单元可用于从‘经验’收集数据,以便改进搜索过程和 /或分类过程。为搜索过程的改进而学习可涉及在(用户作为整体或者 用户的任何子集的)搜索会话期间从与系统的用户交互中收集数据。
6.面向文本的处理。
无论处理查询还是处理初始数据库或者处理添加到数据库的新 条目,当前实施例利用面向文本的方法,包括以下各项:语言预处理 -包括分割、标记化以及剖析,-处理同义关系和意义标识,处理变形 形态、统计分类,推导利用基于规则的分类的语义信息,基于语言规 则的分类以及统计分类的概率置信度分级,结合多个分类算法,结合 对不同方面或条目的分类,等等。处理多义性包括处理拼写错误、词 汇/语义多义性和语法多义性。一般来说,多义性经由称作‘解释版 本转换’的方法来处理。在解释版本转换中,在不同解释可用的任何 情况下,创建多个解释版本。各版本则提交给解释/分类过程的所有 其它阶段,其中,某些阶段涉及隐含或明确消除多义性。不断地计算 置信度和/或似然性等级,以便在过程中监测不同解释版本的似真性 状态。
拼写校正以上下文敏感方式对于查询以及对于数据条目本身来 处理。具体来说,拼写校正建议作为多义性采用其解决方案的上下文 信息来处理。
整体结论
大家知道,为了清楚起见,本发明的某些特征是在分开的实施例 的上下文中描述的,但它们也可结合在单个实施例中提供。相反,为 了简洁起见,本发明的许多特征是在单个实施例的上下文中描述的, 但它们也可分开或者在任何适当的再组合中提供。
虽然结合若干具体实施例描述了本发明,但是显然本领域的技术 人员会非常清楚许多备选方案、修改及变更。因此,意在包含属于所 附权利要求的精神及广义范围之内的所有这类备选方案、修改及变 更。本说明中提到的所有发行物、专利和专利申请通过引用完整地结 合于本文中,好像各个发行物、专利或专利申请被明确及单独表示通 过引用结合于此一样。另外,本申请中的任何引用的引述或标识不应 当视为这种引用可作为先有技术用于本发明的许可。