说明书
发明名称 : 语句意图识别方法、装置及计算机可读存储介质
[0001]
本申请基于巴黎公约申明享有2019年5月6日递交的申请号为CN201910370432.4、名称为“语句意图识别方法、装置及计算机可读存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
[0002]
本申请涉及语音语义技术领域,尤其涉及一种语句意图识别方法、装置及计算机可读存储介质。
[0003]
在聊天机器人多轮对话中如何根据上下文理解用户的意图是多轮交互中的一个重点问题,也是一个难点问题。现有的问句理解方法大多是针对单句的,且侧重于某种句式结构的理解。如何根据上下文语境对当前用户的意图进行识别,而不仅仅是针对单轮进行一个个分析,使得对话在一个连续的语境下具备细粒度的理解能力,是一个亟待解决的问题。
[0005]
本申请提供一种语句意图识别方法、装置及计算机可读存储介质,其主要目的在于实现根据上下文语境对当前用户的意图进行识别,使得用户使用自然语言的表达方式向聊天机器人问问题时,得到聊天机器人返回简洁准确的答案。
[0006]
为实现上述目的,本申请还提供一种语句意图识别方法,所述方法包括:
[0008]
预处理原始语句样本,得到预处理后的样本;
[0009]
从所述预处理后的样本中提取语句特征向量;
[0010]
基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;
[0012]
基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;
[0013]
从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[0014]
为实现上述目的,本申请还提供一种语句意图识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的语句意图识别程序,所述语句意图识别程序被所述处理器执行时实现如下步骤:
[0016]
预处理原始语句样本,得到预处理后的样本;
[0017]
从所述预处理后的样本中提取语句特征向量;
[0018]
基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;
[0020]
基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;
[0021]
从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[0022]
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语句意图识别程序,所述语句意图识别程序可被一个或者多个处理器执行,以实现如上所述的语句意图识别方法的步骤。
[0023]
本申请获取原始语句样本;预处理原始语句样本,得到预处理后的样本;从所述预处理后的样本中提取语句特征向量;基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;获取待识别的目标语句;基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。本申请实现根据上下文语境对当前用户的意图进行识别,使得用户使用自然语言的表达方式向聊天机器人问问题时,得到聊天机器人返回简洁准确的答案。
[0024]
图1为本申请一实施例提供的语句意图识别方法的流程示意图;
[0025]
图2为本申请一实施例提供的语句意图识别装置的内部结构示意图;
[0026]
图3为本申请一实施例提供的语句意图识别装置中语句意图识别程序的模块示意图。
[0027]
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
[0028]
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0029]
本申请提供一种语句意图识别方法。参照图1所示,为本申请一实施例提供的语句意图识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
[0030]
在本实施例中,语句意图识别方法包括:
[0032]
在本实施例中,利用网络爬虫技术从网络上获取各种应用环境下的用户向机器提问的问句。
[0033]
S11、预处理原始语句样本,得到预处理后的样本。
[0034]
优选地,所述预处理原始语句样本,得到预处理后的样本包括:
[0035]
(1)利用自然语言处理技术对原始语句样本进行分词,得到分词后的语句。
[0036]
此环节使用python提供的nltk功能,对历史对话进行分词,具体实现流程如下:
[0038]
导入nltk模块,使用nltk模块的切词功能对每个句子进行单词切分,得到单个的词语
[0039]
导入停用词表,去除到没有意思含义和介词、助动词等功能性词,生成表征对话含义的单词集。
[0040]
(2)利用编码技术对分词后的语句进行转码操作,得到转码后的样本。
[0041]
使用编码技术将单词集中每一个单词进行数值转换,即使用One Hot Encoder编码技术将单词集的字符串类型转换成数值类型,将每个单词转换成没有顺序的二进制数字,生成一一对应的映射集。
[0042]
(3)利用归一化方法对转码后的样本进行规范化处理,得到预处理后的样本。
[0043]
为了满足后续模型算法对数据的要求,使用Normalizer算法,对映射集中的数值进行归一化处理,使每条数据对应的数值和为1,生成归一化规划性的词语映射集。
[0044]
S12、从所述预处理后的样本中提取语句特征向量。
[0045]
优选地,所述从所述预处理后的样本中提取语句特征向量包括:
[0046]
从所述预处理后的样本中提取文本特征;
[0047]
利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[0048]
在一实施例中,优选地,所述从所述预处理后的样本中提取文本特征包括:
[0050]
利用聚类算法对文本词语进行聚类,选择聚类中心作为一个主要关键词,
[0051]
计算其他文本词语与聚类中心的距离,选择前N个距离聚类中心最近的词作为所述文本特征。
[0052]
在一实施例中,使用PAC技术对文本特征进行降维,技术核心是用方差的百分比计算维度的合适度,即计算将数据集降到多少维是比较合适的。
[0053]
S13、基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型。
[0054]
优选地,所述基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型包括:
[0055]
利用线性回归分类器对语句特征向量进行分类,生成每个类别的分类模型;
[0056]
将每个类别的分类模型进行集成,得到集成后的分类模型;
[0057]
利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型;
[0058]
使用交叉熵代价函数算法优化训练后的分类模型,输出语句意图识别模型。
[0059]
本案使用Boosting算法中的线性回归分类器自适应增强算法,算法核心是一种迭代算法,每轮迭代中会在低维对话关键词集上产生一个新的分类器,然后使用该分类器对所有样本进行分类,以评估每个样本的重要性(informative)。具体来说,算法会为不同类别的低维对话关键词集赋予一个权值。每次用训练完的新分类器标注各个低维对话关键词集样本,若某个样本点已被分类正确,则将其权值降低;若样本点未被正确分类,则提高其权值。权值越高的样本在下一次训练中所占的比重越大,也就是说越难区分的样本在训练过程中会变得越来越重要。整个迭代过程直到错误率足够小或达到一定次数为止。
[0060]
优选地,所述利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型包括:
[0062]
基于所述向量,前向计算LSTM深度神经网络模型中每个神经元的输出值;
[0063]
反向计算LSTM深度神经网络模型中每个神经元的误差项值,LSTM误差项的反向传播包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播;
[0064]
根据每个神经元的误差项值,迭代计算LSTM深度神经网络模型中每个权重的梯度,直至迭代终止,输出训练后的分类模型。
[0065]
本申请在使用LSTM深度神经网络模型时,当神经元的输出接近1时,造成学习缓慢,为了解决此问题,本案引入交叉熵代价函数算法,对输出层选择一个不包含sigmoid的权值更新。
[0067]
在本实施例中,获取用户提问的问句作为目标语句。
[0068]
S15、基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图。
[0069]
在本实施例中,当发生新的机器问答对话时,使用构建好的语句意图识别模型,快速匹配最适宜的模型,得到较为精准的意图回答。
[0070]
在训练优化好的深度学习模型的基础上,将发生的新的问答语句输入到模型中,模型快速根据上下文语境进行各步骤操作,迅速返回适宜的回答,较为准确地解决用户的问题,让用户快速得到满意的答案,节约用户时间。
[0071]
S16、从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[0072]
优选地,从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户包括:
[0073]
从答案数据库中获取多个与所述目标语句对应的语句意图匹配的答案;
[0074]
计算每个匹配的答案与用户意图的相似度;
[0075]
按照相似度大小,从大到小排序,并展示给用户。
[0076]
本申请获取原始语句样本;预处理原始语句样本,得到预处理后的样本;从所述预处理后的样本中提取语句特征向量;基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;获取待识别的目标语句;基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。本申请实现根据上下文语境对当前用户的意图进行识别,使得用户使用自然语言的表达方式向聊天机器人问问题时,得到聊天机器人返回简洁准确的答案。
[0077]
本申请还提供一种语句意图识别装置。参照图2所示,为本申请一实施例提供的语句意图识别装置的内部结构示意图。
[0078]
在本实施例中,语句意图识别装置1可以是个人电脑(Personal Computer,PC),也可以是智能手机、平板电脑、便携计算机等终端设备。该语句意图识别装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
[0079]
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是语句意图识别装置1的内部存储单元,例如该语句意图识别装置1的硬盘。存储器11在另一些实施例中也可以是语句意图识别装置1的外部存储设备,例如语句意图识别装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器 11还可以既包括语句意图识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于语句意图识别装置1的应用软件及各类数据,例如语句意图识别程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0080]
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行语句意图识别程序01等。
[0081]
通信总线13用于实现这些组件之间的连接通信。
[0082]
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
[0083]
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在语句意图识别装置1中处理的信息以及用于显示可视化的用户界面。
[0084]
图2仅示出了具有组件11-14以及语句意图识别程序01的语句意图识别装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对语句意图识别装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0085]
在图2所示的装置1实施例中,存储器11中存储有语句意图识别程序01;处理器12执行存储器11中存储的语句意图识别程序01时实现如下步骤:
[0087]
在本实施例中,利用网络爬虫技术从网络上获取各种应用环境下的用户向机器提问的问句。
[0088]
预处理原始语句样本,得到预处理后的样本。
[0089]
优选地,所述预处理原始语句样本,得到预处理后的样本包括:
[0090]
(1)利用自然语言处理技术对原始语句样本进行分词,得到分词后的语句。
[0091]
此环节使用python提供的nltk功能,对历史对话进行分词,具体实现流程如下:
[0093]
导入nltk模块,使用nltk模块的切词功能对每个句子进行单词切分,得到单个的词语
[0094]
导入停用词表,去除到没有意思含义和介词、助动词等功能性词,生成表征对话含义的单词集。
[0095]
(2)利用编码技术对分词后的语句进行转码操作,得到转码后的样本。
[0096]
使用编码技术将单词集中每一个单词进行数值转换,即使用One Hot Encoder编码技术将单词集的字符串类型转换成数值类型,将每个单词转换成没有顺序的二进制数字,生成一一对应的映射集。
[0097]
(3)利用归一化方法对转码后的样本进行规范化处理,得到预处理后的样本。
[0098]
为了满足后续模型算法对数据的要求,使用Normalizer算法,对映射集中的数值进行归一化处理,使每条数据对应的数值和为1,生成归一化规划性的词语映射集。
[0099]
从所述预处理后的样本中提取语句特征向量。
[0100]
优选地,所述从所述预处理后的样本中提取语句特征向量包括:
[0101]
从所述预处理后的样本中提取文本特征;
[0102]
利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[0103]
在一实施例中,优选地,所述从所述预处理后的样本中提取文本特征包括:
[0105]
利用聚类算法对文本词语进行聚类,选择聚类中心作为一个主要关键词,
[0106]
计算其他文本词语与聚类中心的距离,选择前N个距离聚类中心最近的词作为所述文本特征。
[0107]
在一实施例中,使用PAC技术对文本特征进行降维,技术核心是用方差的百分比计算维度的合适度,即计算将数据集降到多少维是比较合适的。
[0108]
基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型。
[0109]
优选地,所述基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型包括:
[0110]
利用线性回归分类器对语句特征向量进行分类,生成每个类别的分类模型;
[0111]
将每个类别的分类模型进行集成,得到集成后的分类模型;
[0112]
利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型;
[0113]
使用交叉熵代价函数算法优化训练后的分类模型,输出语句意图识别模型。
[0114]
本案使用Boosting算法中的线性回归分类器自适应增强算法,算法核心是一种迭代算法,每轮迭代中会在低维对话关键词集上产生一个新的分类器,然后使用该分类器对所有样本进行分类,以评估每个样本的重要性(informative)。具体来说,算法会为不同类别的低维对话关键词集赋予一个权值。每次用训练完的新分类器标注各个低维对话关键词集样本,若某个样本点已被分类正确,则将其权值降低;若样本点未被正确分类,则提高其权值。权值越高的样本在下一次训练中所占的比重越大,也就是说越难区分的样本在训练过程中会变得越来越重要。整个迭代过程直到错误率足够小或达到一定次数为止。
[0115]
优选地,所述利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型包括:
[0117]
基于所述向量,前向计算LSTM深度神经网络模型中每个神经元的输出值;
[0118]
反向计算LSTM深度神经网络模型中每个神经元的误差项值,LSTM误差项的反向传播包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播;
[0119]
根据每个神经元的误差项值,迭代计算LSTM深度神经网络模型中每个权重的梯度,直至迭代终止,输出训练后的分类模型。
[0120]
本申请在使用LSTM深度神经网络模型时,当神经元的输出接近1时,造成学习缓慢,为了解决此问题,本案引入交叉熵代价函数算法,对输出层 选择一个不包含sigmoid的权值更新。
[0122]
在本实施例中,获取用户提问的问句作为目标语句。
[0123]
基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图。
[0124]
在本实施例中,当发生新的机器问答对话时,使用构建好的语句意图识别模型,快速匹配最适宜的模型,得到较为精准的意图回答。
[0125]
在训练优化好的深度学习模型的基础上,将发生的新的问答语句输入到模型中,模型快速根据上下文语境进行各步骤操作,迅速返回适宜的回答,较为准确地解决用户的问题,让用户快速得到满意的答案,节约用户时间。
[0126]
从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[0127]
优选地,从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户包括:
[0128]
从答案数据库中获取多个与所述目标语句对应的语句意图匹配的答案;
[0129]
计算每个匹配的答案与用户意图的相似度;
[0130]
按照相似度大小,从大到小排序,并展示给用户。
[0131]
本申请获取原始语句样本;预处理原始语句样本,得到预处理后的样本;从所述预处理后的样本中提取语句特征向量;基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;获取待识别的目标语句;基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。本申请实现根据上下文语境对当前用户的意图进行识别,使得用户使用自然语言的表达方式向聊天机器人问问题时,得到聊天机器人返回简洁准确的答案。
[0132]
可选地,在其他实施例中,语句意图识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述语句意图识别程序在语句意图识别装置中的执行过程。
[0133]
例如,参照图3所示,为本申请语句意图识别装置一实施例中的语句意图识别程序的程序模块示意图,该实施例中,语句意图识别程序可以被分割为获取模块10、预处理模块20、提取模块30、训练模块40、输出模块50及展示模块60,示例性地:
[0135]
预处理模块20预处理原始语句样本,得到预处理后的样本;
[0136]
提取模块30从所述预处理后的样本中提取语句特征向量;
[0137]
训练模块40基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型;
[0138]
所述获取模块10获取待识别的目标语句;
[0139]
输出模块50基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图;
[0140]
展示模块60从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[0141]
上述获取模块10、预处理模块20、提取模块30、训练模块40、输出模块50及展示模块60等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
[0142]
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语句意图识别程序,所述语句意图识别程序可被一个或多个处理器执行,以实现如下操作:
[0144]
预处理原始语句样本,得到预处理后的样本;
[0145]
从所述预处理后的样本中提取语句特征向量;
[0146]
利用所述语句特征向量训练语句意图识别模型,得到训练好的语句意图识别模型;
[0148]
基于目标语句数据,并利用训练好的语句意图识别模型,输出所述目标语句数据对应的多个不同概率的语音文本;
[0149]
根据所述多个不同概率的语音文本中,确定相似度最大的语音文本,并 将所述相似度最大的语音文本作为所述目标语句数据对应的识别结果。
[0150]
本申请计算机可读存储介质具体实施方式与上述语句意图识别装置和方法各实施例基本相同,在此不作累述。
[0151]
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0152]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
[0153]
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
权利要求书
[权利要求 1]
一种语句意图识别方法,其特征在于,所述方法包括: 获取原始语句样本; 预处理原始语句样本,得到预处理后的样本; 从所述预处理后的样本中提取语句特征向量; 基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型; 获取待识别的目标语句; 基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图; 从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[权利要求 2]
如权利要求1所述的语句意图识别方法,其特征在于,所述预处理原始语句样本,得到预处理后的样本包括: 利用自然语言处理技术对原始语句样本进行分词,得到分词后的语句; 利用编码技术对分词后的语句进行转码操作,得到转码后的样本; 利用归一化方法对转码后的样本进行规范化处理,得到预处理后的样本。
[权利要求 3]
如权利要求1所述的语句意图识别方法,其特征在于,所述从所述预处理后的样本中提取语句特征向量包括: 从所述预处理后的样本中提取文本特征; 利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[权利要求 4]
如权利要求3所述的语句意图识别方法,其特征在于,所述从所述预处理后的样本中提取语句特征向量包括: 从所述预处理后的样本中提取文本特征; 利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[权利要求 5]
如权利要求1所述的语句意图识别方法,其特征在于,所述基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型包括: 利用线性回归分类器对语句特征向量进行分类,生成每个类别的分类模 型; 将每个类别的分类模型进行集成,得到集成后的分类模型; 利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型; 使用交叉熵代价函数算法优化训练后的分类模型,输出语句意图识别模型。
[权利要求 6]
如权利要求5所述的语句意图识别方法,其特征在于,所述利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型包括: 将集成后的分类模型转换成一个向量; 基于所述向量,前向计算LSTM深度神经网络模型中每个神经元的输出值; 反向计算LSTM深度神经网络模型中每个神经元的误差项值,LSTM误差项的反向传播包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播; 根据每个神经元的误差项值,迭代计算LSTM深度神经网络模型中每个权重的梯度,直至迭代终止,输出训练后的分类模型。
[权利要求 7]
如权利要求1至6任一项所述的语句意图识别方法,其特征在于,从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户包括: 从答案数据库中获取多个与所述目标语句对应的语句意图匹配的答案; 计算每个匹配的答案与用户意图的相似度; 按照相似度大小,从大到小排序,并展示给用户。
[权利要求 8]
一种语句意图识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的语句意图识别程序,所述语句意图识别程序被所述处理器执行时实现如下步骤: 获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集; 获取原始语句样本; 预处理原始语句样本,得到预处理后的样本; 从所述预处理后的样本中提取语句特征向量; 基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型; 获取待识别的目标语句; 基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图; 从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[权利要求 9]
如权利要求8所述的语句意图识别装置,其特征在于,所述预处理原始语句样本,得到预处理后的样本包括: 利用自然语言处理技术对原始语句样本进行分词,得到分词后的语句; 利用编码技术对分词后的语句进行转码操作,得到转码后的样本; 利用归一化方法对转码后的样本进行规范化处理,得到预处理后的样本。
[权利要求 10]
如权利要求8所述的语句意图识别装置,其特征在于,所述从所述预处理后的样本中提取语句特征向量包括: 从所述预处理后的样本中提取文本特征; 利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[权利要求 11]
如权利要求10所述的语句意图识别装置,其特征在于,所述从所述预处理后的样本中提取文本特征包括: 从预处理后的样本中提取文本词语; 利用聚类算法对文本词语进行聚类,选择聚类中心作为一个主要关键词, 计算其他文本词语与聚类中心的距离,选择前N个距离聚类中心最近的词作为所述文本特征。
[权利要求 12]
如权利要求8所述的语句意图识别装置,其特征在于,所述基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型包括: 利用线性回归分类器对语句特征向量进行分类,生成每个类别的分类模型; 将每个类别的分类模型进行集成,得到集成后的分类模型; 利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型; 使用交叉熵代价函数算法优化训练后的分类模型,输出语句意图识别模型。
[权利要求 13]
如权利要求12所述的语句意图识别装置,其特征在于,所述利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型包括: 将集成后的分类模型转换成一个向量; 基于所述向量,前向计算LSTM深度神经网络模型中每个神经元的输出值; 反向计算LSTM深度神经网络模型中每个神经元的误差项值,LSTM误差项的反向传播包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播; 根据每个神经元的误差项值,迭代计算LSTM深度神经网络模型中每个权重的梯度,直至迭代终止,输出训练后的分类模型。
[权利要求 14]
如权利要求8至13任一项所述的语句意图识别装置,其特征在于,从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户包括: 从答案数据库中获取多个与所述目标语句对应的语句意图匹配的答案; 计算每个匹配的答案与用户意图的相似度; 按照相似度大小,从大到小排序,并展示给用户。
[权利要求 15]
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括语句意图识别程序,所述语句意图识别程序被处理器执行时,实现如下步骤: 获取原始语句样本; 预处理原始语句样本,得到预处理后的样本; 从所述预处理后的样本中提取语句特征向量; 基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型; 获取待识别的目标语句; 基于目标语句,并利用训练好的语句意图识别模型,输出所述目标语句对应的语句意图; 从答案数据库中获取与所述目标语句对应的语句意图匹配的答案,并展示给用户。
[权利要求 16]
如权利要求15所述的计算机可读存储介质,其特征在于,所述预处理原始语句样本,得到预处理后的样本包括: 利用自然语言处理技术对原始语句样本进行分词,得到分词后的语句; 利用编码技术对分词后的语句进行转码操作,得到转码后的样本; 利用归一化方法对转码后的样本进行规范化处理,得到预处理后的样本。
[权利要求 17]
如权利要求15所述的计算机可读存储介质,其特征在于,所述从所述预处理后的样本中提取语句特征向量包括: 从所述预处理后的样本中提取文本特征; 利用PCA技术对文本特征进行特征降维,得到语句特征向量。
[权利要求 18]
如权利要求17所述的计算机可读存储介质,其特征在于,所述从所述预处理后的样本中提取文本特征包括: 从预处理后的样本中提取文本词语; 利用聚类算法对文本词语进行聚类,选择聚类中心作为一个主要关键词, 计算其他文本词语与聚类中心的距离,选择前N个距离聚类中心最近的词作为所述文本特征。
[权利要求 19]
如权利要求15所述的计算机可读存储介质,其特征在于,所述基于所述语句特征向量,并利用交叉熵代价函数方法训练语句意图识别模型,得到训练好的语句意图识别模型包括: 利用线性回归分类器对语句特征向量进行分类,生成每个类别的分类模型; 将每个类别的分类模型进行集成,得到集成后的分类模型; 利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型; 使用交叉熵代价函数算法优化训练后的分类模型,输出语句意图识别模型。
[权利要求 20]
如权利要求19所述的计算机可读存储介质,其特征在于,所述利用LSTM深度神经网络模型训练集成后的分类模型,得到训练后的分类模型包括: 将集成后的分类模型转换成一个向量; 基于所述向量,前向计算LSTM深度神经网络模型中每个神经元的输出值; 反向计算LSTM深度神经网络模型中每个神经元的误差项值,LSTM误差项的反向传播包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播; 根据每个神经元的误差项值,迭代计算LSTM深度神经网络模型中每个权重的梯度,直至迭代终止,输出训练后的分类模型。
附图