Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018145436) METHOD FOR EXTRACTING CONVERSATION PAIR FROM CONVERSATION CONTENT
Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131  

权利要求书

1   2   3   4   5   6  

附图

0001   0002  

说明书

发明名称 : 一种从会话内容中提取会话对的方法

技术领域

[0001]
本发明涉及通信技术领域,具体涉及一种从会话内容中提取会话对的方法。

背景技术

[0002]
目前,从会话内容中提取的会话对或问答对,往往是一问一答的会话对形式,而在实际的会话过程中,通讯双方进行会话并非完全符合一问一答的会话模式,例如针对通讯对方发送的会话句,通讯方可能回复了几条会话句,或针对通讯对方发送的多条会话句,通讯方可能只回复了一条会话句。
[0003]
故如果仅仅采取一问一答的形式提取对话对,可能存在以下问题:
[0004]
(1)对于一些没有以一问一答形式展现的会话内容,从会话内容中提取会话对的难度较大,且精度较低。例如对于多个发起句+多个回复句形式的会话内容,从中提取会话对时,需要分析与每一个发起句匹配的回复句,过程复杂,难度大,且精度较低。
[0005]
(2)由于现有根据会话内容提取的问答对或会话对一般都是比较标准的会话句,或结构比较简单的会话句,从而导致针对一些复杂或非标准结构的会话句不能精准提取完整性好和实用性高的会话对。
[0006]
(3)此外,由于以一问一答形式提取的会话对的完整性容易被破坏,从而导致提取的会话对不能准确模拟真实会话。针对上述问题,本发明提出了一种根据发起句和回复句的类型从会话内容中提取会话对的方法。
[0007]
发明内容
[0008]
本发明实施例提供了一种从会话内容中提取会话对的方法,以解决现有技术提取会话对的难度较大,精度较低的技术问题。
[0009]
本发明提供的从会话内容中提取会话对的方法,包括:
[0010]
采集会话内容;
[0011]
根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;
[0012]
根据预设的类型判断规则,确定发起句和回复句的类型;
[0013]
根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;
[0014]
根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。
[0015]
可选地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:
[0016]
判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
[0017]
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
[0018]
可选地,根据预设的类型判断规则,确定发起句的类型包括:
[0019]
判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
[0020]
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0021]
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0022]
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
[0023]
可选地,根据预设的类型判断规则,确定回复句的类型包括:
[0024]
判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具 有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
[0025]
搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
[0026]
搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
[0027]
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
[0028]
可选地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:
[0029]
将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句;
[0030]
将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句;
[0031]
根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
[0032]
可选地,采集会话内容包括:
[0033]
采集用户的即时通讯账号、邮箱账号、微博号、手机号的会话内容,其中,会话内容包括文本、图片、语音、视频或动漫格式的会话内容。
[0034]
本发明具有以下有益效果:
[0035]
本发明提供的从会话内容中提取会话对的方法,通过采集会话内容,根据会话内 容中会话句的语义,确定会话内容中的发起句和回复句,根据预设的类型判断规则,确定发起句和回复句的类型,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对,以及根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对,解决了现有技术提取会话对的难度较大、精度较低的技术问题,打破了传统的一问一答的会话对形式的局限性,并且根据发起句和回复句的类型,不仅能快速有效地提取会话对,而且提取的会话对的精度和准确度也大大提升。此外,针对一些复杂或非标准结构的会话句,本发明实施例能精准提取完整性好和实用性高的会话对,从而使得提取的会话对能准确模拟真实会话,智能化程度较高。可选地,本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复内容,以及匹配获得形式多样的智能回复内容,实用性较高。
[0036]
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。

附图说明

[0037]
构建本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构建对本发明的不当限定。在附图中:
[0038]
图1是本发明优选实施例从会话内容中提取会话对的方法流程图;
[0039]
图2是本发明优选实施例针对的精简实施例的从会话内容中提取会话对的方法的流程图。

具体实施方式

[0040]
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
[0041]
参照图1,本发明的优选实施例提供了一种从会话内容中提取会话对的方法,包括:
[0042]
步骤S101,采集会话内容;
[0043]
步骤S102,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;
[0044]
步骤S103,根据预设的类型判断规则,确定发起句和回复句的类型;
[0045]
步骤S104,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;
[0046]
步骤S105,根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一 个会话对。
[0047]
本发明实施例提供的从会话内容中提取会话对的方法,通过采集会话内容,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,根据预设的类型判断规则,确定发起句和回复句的类型,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对,以及根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对,解决了现有技术提取会话对的难度较大、精度较低的技术问题,打破了传统的一问一答的会话对形式的局限性,并且根据发起句和回复句的类型,不仅能快速有效地提取会话对,而且提取的会话对的精度和准确度也大大提升。此外,针对一些复杂或非标准结构的会话句,本发明实施例能精准提取完整性好和实用性高的会话对,从而使得提取的会话对能准确模拟真实会话,智能化程度较高。进一步地,本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复内容,以及匹配获得形式多样的智能回复内容,实用性较高。
[0048]
需要说明的是,本实施例在确定发起句和回复句的类型之前,首先预设发起句和回复句的类型以及与类型对应的类型判断规则,从而根据预设的类型判断规则,可以快速确定发起句和回复句的类型。且本实施例中的发起句具体是指无通讯对方发送上文的会话句或与通讯对方发送的上文无语义关联的会话句。
[0049]
可选地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:
[0050]
判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
[0051]
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
[0052]
为了精准提取会话内容中的会话对,本实施例首先根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,然后再进一步确定发起句和回复句的类型,从而根据发起句和回复句的类型精准提取会话对。其中,本实施例所指的根据会话内容中会话句的语义,确定会话内容中的发起句和回复句的具体过程为:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句,若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
[0053]
在实际的会话过程中,如果当前会话句在预设时间区间内无通讯对方发送的上文,一般将其认为是发起会话的起始句,也即发起句。例如假设当前会话句为12月3日发送的会话句,上一条会话句是通讯对方于12月1日发送的会话句,假设预设的时间区 间为1天,则通过判断可知,当前会话句在预设时间区间内无通讯对方发送的上文,则将当前会话句认为是发起会话的起始句,也即将当前会话句判定为发起句。且本实施例预设的时间区间具体由用户自定义,例如可以是1小时、半天、一天、一个月等等,也即当判断出当前会话句在1小时、半天、一天、一个月内无通讯对方发送的上文,则判定当前会话句为发起句。
[0054]
此外,当会话句有通讯对方发送的上文时,根据实际会话内容可判断,会话句可能是回复通讯对方发送的上文的回复句;也可能不是回复通讯对方发送的上文,而是重新发起会话的发起句;或者同时是回复通讯对方发送的上文的回复句和重新发起会话的发起句。针对这种情况,本实施例通过判断会话句是否与通讯对方发送的上文无语义关联来确定会话句的类型。需要说明的是,本实施例中会话句是否与通讯对方发送的上文无语义关联,具体是指会话句是否包括与通讯对方发送的上文无语义关联的语句。
[0055]
例如,当会话句有通讯对方发送的上文,且通讯对方A发送的上文为“最近怎么样?”,则针对第一种情况的会话句(通讯方B:“挺好的”),可判断出该会话句不包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为回复句;针对第二种情况的会话句(通讯方B:“帮我缴电话费了吗?”),可判断出该会话句包括与通讯对方发送的上文无语义关联的语句,此时确定该会话句为发起句;针对第三种情况的会话句(通讯方B:“挺好的,帮我缴电话费了吗?”),可判断出该会话句同样包括与通讯对方发送的上文无语义关联的语句(“帮我缴电话费了吗?”),此时确定该会话句为发起句。
[0056]
本实施例通过判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文以及在有通讯对方发送的上文时判断会话句是否与通讯对方发送的上文无语义关联,可以精准确定会话内容中的发起句和回复句,为后续根据确定的发起句和回复句精准提取会话对奠定基础。
[0057]
可选地,根据预设的类型判断规则,确定发起句的类型包括:
[0058]
判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;
[0059]
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无, 则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0060]
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0061]
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将已确定类型的发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
[0062]
在实际的实施过程中,发起句可能以多种类型进行呈现,例如单句、复句、非标准句等等,且不同类型的发起句可能会影响或导致提取的会话对不同。针对该问题,本实施例按照预设的类型判断规则,确定发起句的类型。具体地,首先在发起句具有完整独立语义的前提下,通过判断发起句是由一个还是多个完整独立语义的单句组成,确定发起句为单句还是复句发起句类型,以及在发起句不具有完整独立语义的前提下,通过判断发起句是否包含具有完整独立语义的单句来确定发起句的类型为非标准复句还是非标准单句发起句类型;然后通过搜索非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将发起句的类型衍生扩展为非标准句群发起句类型;最后通过判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,确定发起句的类型是否可以衍生扩展为句群发起句类型。
[0063]
具体地,本实施例确定发起句类型的过程本质上分为三个判别过程,即第一个判别过程是对每一条发起句按照四种发起句类型(单句、复句、非标准单句以及非标准复句)进行逐一判别;第二个判别过程是在进行完第一个判别过程后,接着判别非标准单句和非标准复句发起句类型的发起句是否可进一步衍生扩展为非标准句群发起句类型;第三个判别过程是在进行完第二个判别过程后,接着判别单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。
[0064]
本实施例通过确定发起句的类型,一方面有利于对发起句进行句子结构和成分的深度分析,另一方面,基于对发起句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对。需要说明的是,本实施例中发起句是否有自己的上文和下文连续会话句具体是指发起句是否有发送发起句的发送方发送的上文和下文连续会话句。
[0065]
可选地,根据预设的类型判断规则,确定回复句的类型包括:
[0066]
判断回复句是否为具有完整独立语义的语句,若是,则判断回复句是否由多个具有完整独立语义的单句组成,若是,则将回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断回复句是否包含具有完整独立语义的单句,若包含,则将回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型;
[0067]
搜索非标准单句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
[0068]
搜索非标准复句回复句类型的回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的回复句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展;
[0069]
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的回复句是否有自己的上文和下文连续会话句,若有,则进一步判断回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将已确定类型的回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
[0070]
本实施例判断回复句的类型和判断发起句的类型的原理和过程基本相同,故不再详述。且本实施例通过确定回复句的类型,一方面有利于对回复句进行句子结构和成分的深度分析,另一方面,基于对回复句进行类型判断和结构分析,有利于更精准提取实用性高且形式多样的会话对。需要说明的是,本实施例中回复句是否有自己的上文和下文连续会话句具体是指回复句是否有发送所述回复句的发送方发送的上文和下文连续会话句。
[0071]
可选地,根据基础会话对、基础会话对中发起句的类型以及基础会话对中回复句的类型,提取至少一个会话对包括:
[0072]
将基础会话对中发起句的类型进行衍生,获得多种类型的发起句;
[0073]
将基础会话对中回复句的类型进行衍生,获得多种类型的回复句;
[0074]
根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
[0075]
由于本实施例中发起句和回复句的类型包括多种,例如单句、复句、非标准单句、非标准复句,非标准句群、句群发起句类型,以及单句、复句、非标准单句、非标准复句、非标准句群、句群回复句类型,故在提取到基础会话对后,为了更精准提取实用性高且形式多样的会话对,本实施例首先将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句,然后将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句,最后根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取,从而可以组合获得多个会话对。
[0076]
例如假设发起句类型为复句发起句类型,回复句为复句回复句类型,则通过类型衍生扩展后,可以提取出单句发起句+单句回复句,复句发起句+单句回复句,单句发起句+复句回复句,复句发起句+复句回复句等多种形式的会话对。
[0077]
可选地,采集会话内容包括:
[0078]
采集用户的即时通讯账号、邮箱账号、微博号、手机号的会话内容,其中,会话内容包括文本、图片、语音、视频或动漫格式的会话内容。
[0079]
本实施例采集的会话内容可以是用户的即时通讯账号、邮箱账号、微博号、手机号的会话内容,且会话内容包括文本、图片、语音、视频或动漫格式的会话内容,且当会话内容是图片、语音、视频或动漫格式的会话内容时,首先将图片、语音、视频或动漫格式的会话内容转换为文本格式的会话内容。
[0080]
下面针对一个精简实施例对本发明的从会话内容中提取会话对的方法进行更进一步说明。参照图2,本发明的精简实施例提供的从会话内容中提取会话对的方法,包括:
[0081]
步骤S201,采集会话内容。
[0082]
具体地,假设本实施例采集的会话内容为通讯方A的即时通讯账号、邮箱账号、微博号、手机号与通讯对方B进行会话的会话内容,其中,会话内容为文本、图片、 语音、视频或动漫格式,且当会话内容是语音、图片、视频或动漫格式时,还包括将语音、图片、视频或动漫格式的会话内容转换为文本格式的会话内容。为了详细描述本实施例从会话内容中提取会话对的过程,本实施例以简单的通讯方A与通讯对方B的会话内容进行说明,具体如下:
[0083]
A:吃了吗?
[0084]
B:吃了。
[0085]
B:你呢?
[0086]
A:帮我缴
[0087]
A:费了吗?
[0088]
B:缴了总共100元。
[0089]
B:排队的人可真多。
[0090]
步骤S202,判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;
[0091]
若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复句。
[0092]
具体地,根据上述判断规则,可以确定会话内容中的发起句和回复句,假设本实施例通过判断获得会话内容中的发起句和回复句具体见表1。
[0093]
表1
[0094]
[表0001]
发起句 回复句
吃了吗? 吃了。
你呢? 缴了总共100元。
帮我缴 排队的人可真多。
费了吗?

[0095]
步骤S203,判断发起句是否为具有完整独立语义的语句,若是,则判断发起句是否由多个具有完整独立语义的单句组成,若是,则将发起句的类型确定为复句发起句类型,否则为单句发起句类型,若否,则判断发起句是否包含具有完整独立语义的单句,若包含,则将发起句的类型确定为非标准复句发起句类型,若不包含,则为非标 准单句发起句类型;
[0096]
搜索非标准单句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0097]
搜索非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的发起句是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;
[0098]
判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否有自己的上文和下文连续会话句,若有,则进一步判断发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将已确定类型的发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
[0099]
具体地,假设本实施例首先根据步骤S203中的第一个判别过程,判断出发起句的类型如下,具体见表2所示。
[0100]
表2
[0101]
[表0002]
序号 发起句 类型
第一条发起句 吃了吗? 单句
第二条发起句 你呢? 单句
第三条发起句 帮我缴 非标准单句
第四条发起句 费了吗? 非标准单句

[0102]
然后,根据步骤S203中的第二个判别过程,即通过判断非标准单句和非标准复句发起句类型的发起句是否有自己的上文和下文连续会话句,以及是否可与自己的上文和下文连续会话句合并成具有完整独立语义的语句,确定是否将非标准单句和非标准复句发起句的类型衍生扩展为非标准句群发起句类型。通过具体判断可知,本实施例的第三条和第四条发起句可以合并成具有完整独立语义的语句,也即此时可以将第三条和第四条发起句的类型衍生扩展为非标准句群发起句类型,具体见表3所示。
[0103]
表3
[0104]
[0105]
最后,根据步骤S203中的第三个判别过程,判断单句、复句、非标准单句、非标准复句以及非标准句群类型的发起句是否可进一步衍生扩展为句群发起句类型。
[0106]
具体地,根据表3可知,本实施例不能将发起句进一步合并成语义关联的句群,也即在最后一个过程,不对发起句进一步进行衍生扩展。故最终获得发起句的类型如表3所示。
[0107]
步骤S204,根据预设的类型判断规则,确定回复句的类型。
[0108]
本实施例确定回复句的类型的原理和过程和确定发起句的类型的原理和过程基本相同,故不再详述,假设本实施例判断出回复句的类型具体如表4所示。
[0109]
表4
[0110]
[0111]
步骤S205,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对。
[0112]
具体地,本实施例针对第一条发起句提取会话对时,首先判断第一条发起句与下一条发起句之间是否有回复句,若有,则根据所述发起句和所述回复句提取基础会话对,由于第一条和第二条发起句之间有回复句,则根据第一条发起句和回复句提取基础会话对。需要说明的是,本实施例在确定发起句与下一条发起句之间包含回复句后,还需计算发起句与回复句是否语义关联,且只有在语义关联的情况下,才提取基础会话对,否则不提取。本实施例假设第一条发起句和第一条回复句语义关联,则可以提 取出基础会话对,假设为基础会话对1,基础会话对1的具体内容如表5所示。
[0113]
同理,本实施例针对第二条发起句提取基础会话对时,首先判断第二条发起句与第三条发起句之间是否有回复句,通过判断可知,第二条和第三条发起句之间不包含回复句,则放弃第二条发起句作为发起句。同样地,根据第三条和第四条发起句,假设可以提取语义关联的基础会话对2,基础会话对2的具体内容如表5所示。
[0114]
表5
[0115]
[0116]
步骤S206,将基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句。
[0117]
具体地,由于本实施例中发起句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群发起句类型,故本实施例首先根据基础会话对中发起句的类型进行衍生扩展,由于本实施例中基础会话对1中的发起句的类型为单句发起句类型,其无法进一步衍生扩展成其他五种发起句类型,故此时只包含一种类型的发起句,即单句发起句类型的发起句,具体如表6所示。而根据基础会话对2中的发起句的类型,可以进一步衍生扩展成其他类型的发起句,例如单句发起句类型,具体如表6所示。
[0118]
表6
[0119]
[0120]
步骤S207,将基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句。
[0121]
具体地,由于本实施例中回复句的类型共有六种,分别为单句、复句、非标准单句、非标准复句、非标准句群以及句群回复句类型。故本实施例首先根据基础会话对中回复句的类型进行衍生扩展,由于本实施例中基础会话对1中的回复句的类型为单句回复句类型,其无法进一步衍生扩展成其他五种回复句类型,故此时只包含一种类型的回复句,即单句回复句类型的回复句,具体如表7所示。而根据基础会话对2中的回复句的类型,可以进一步衍生扩展成其他类型的回复句,例如复句回复句类型,具体如表7所示。
[0122]
表7
[0123]
[0124]
步骤S208,根据多种类型的发起句以及多种类型的回复句,组合至少一个语义关联的会话对进行提取。
[0125]
具体地,由于针对基础会话对1,发起句和回复句的类型只有一种,故此时只能提取一个会话对,而针对基础会话对2,由于发起句的类型和复句的类型为多种,故可组合获得多个会话对,具体见表8,表8为根据基础会话对2提取的6个会话对。
[0126]
表8
[0127]
[0128]
[0129]
由此可见,本实施例根据发起句和回复句的类型可以获得多个会话对,使得提取的会话对不仅形式多样,且精度高,此外,本实施例通过衍生发起句和回复句的类型获得的会话对,能更真实模拟会话过程,具有较高的实用性。
[0130]
本发明实施例提供的从会话内容中提取会话对的方法,通过采集会话内容,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句,根据预设的类型判断规则,确定发起句和回复句的类型,根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对,以及根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对,解决了现有技术提取会话对的难度较大、精度较低的技术问题,打破了传统的一问一答的会话对形式的局限性,并且根据发起句和回复句的类型,不仅能快速有效地提取会话对,而且提取的会话对的精度和准确度也大大提升。此外,针对一些复杂或非标准结构的会话句,本发明实施例能精准提取完整性好和实用性高的会话对,从而使得提取的会话对能准确模拟真实会话,智能化程度较高。可选地, 本发明实施例提取的会话对形式多样,有利于基于会话对精准匹配智能回复内容,以及匹配获得形式多样的智能回复内容,实用性较高。
[0131]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求书

[权利要求 1]
一种从会话内容中提取会话对的方法,包括: 采集会话内容; 根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句; 根据预设的类型判断规则,确定所述发起句和所述回复句的类型; 根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对; 根据所述基础会话对、所述基础会话对中发起句和回复句的类型,提取至少一个会话对。
[权利要求 2]
根据权利要求1所述的从会话内容中提取会话对的方法,其中,根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句包括: 判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将所述会话句确定为发起句; 若有,则判断所述会话句是否与所述通讯对方发送的上文无语义关联,若是,则将所述会话句确定为发起句,否则将所述会话句确定为回复句。
[权利要求 3]
根据权利要求2所述的从会话内容中提取会话对的方法,其中,根据预设的类型判断规则,确定所述发起句的类型包括: 判断所述发起句是否为具有完整独立语义的语句,若是,则判断所述发起句是否由多个具有完整独立语义的单句组成,若是,则将所述发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断所述发起句是否包含具有完整独立语义的单句,若包含,则将所述发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型; 搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展; 搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话 句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展; 判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句,若有,则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。
[权利要求 4]
根据权利要求2所述的从会话内容中提取会话对的方法,其中,根据预设的类型判断规则,确定所述回复句的类型包括: 判断所述回复句是否为具有完整独立语义的语句,若是,则判断所述回复句是否由多个具有完整独立语义的单句组成,若是,则将所述回复句的类型确定为复句回复句类型,否则为单句回复句类型;若否,则判断所述回复句是否包含具有完整独立语义的单句,若包含,则将所述回复句的类型确定为非标准复句回复句类型,若不包含,则为非标准单句回复句类型; 搜索非标准单句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展; 搜索非标准复句回复句类型的所述回复句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句回复句类型的所述回复句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句回复句类型的所述回复句的类型衍生扩展为非标准句群回复句类型,若不能,则不进行衍生扩展; 判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述回复句是否有自己的上文和下文连续会话句,若有,则进一步判断所述回复句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述回复句的类型衍生扩展为句群回复句类型,否则不进行衍生扩展。
[权利要求 5]
根据权利要求4所述的从会话内容中提取会话对的方法,其中,根据基础会话对、所述基础会话对中发起句的类型以及所述基础会话对中回复句的类型,提取至少 一个会话对包括: 将所述基础会话对中发起句的类型进行衍生扩展,获得多种类型的发起句; 将所述基础会话对中回复句的类型进行衍生扩展,获得多种类型的回复句; 根据多种类型的所述发起句以及多种类型的所述回复句,组合至少一个语义关联的会话对进行提取。
[权利要求 6]
根据权利要求5所述的从会话内容中提取会话对的方法,其中,采集会话内容包括: 采集用户的即时通讯账号、邮箱账号、微博号、手机号的会话内容,其中,所述会话内容包括文本、图片、语音、视频或动漫格式的会话内容。

附图

[ 图 0001]  
[ 图 0002]