Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020140633 - TEXT TOPIC EXTRACTION METHOD, APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM

Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

附图

1   2  

说明书

发明名称 : 文本主题提取方法、装置、电子设备及存储介质

[0001]
本申请要求申请号为201910008265.9,申请日为2019年1月4日,发明创造名称为“文本主题提取方法、装置及存储介质”的专利申请的优先权。

技术领域

[0002]
本申请涉及人工智能技术领域,尤其涉及一种文本主题提取方法、装置、电子设备及存储介质。

背景技术

[0003]
随着互联网的迅速发展,越来越多的用户通过网络进行信息的共享,通过电子文本记载网络信息资源,因此,若需要快速在海量的电子文本中找到所需电子信息,则需要在文本中提取文本主题以表征该电子文本。在一个文本中提取文本主题可以帮助用户判断是否需要查看文本的全文。而海量的电子文本存在多个主题文本,包含丰富的主题信息。对于文本主题的提取大多是基于人工智能技术,利用计算机通过文本主题提取模型,从文本中自动提取内容生成文本主题。现有多数文本主题提取模型主要基于循环神经网络,而循环神经网络模型的运算效率较低,导致文本主题提取模型的运算效率较低,增加运算负担,且导致通过该文本主题提取模型进行文本主题提取的效率较低。
[0004]
申请内容
[0005]
本申请提供一种基于卷积神经网络和注意力机制的文本主题提取方法、装置及存储介质,以提高文本主题提取的效率,降低文本主题提取模型的运算负担。
[0006]
为了实现上述目的,本申请的一个方面是提供一种文本主题提取方法,包括:构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题,其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输 出文本主题。
[0007]
为了实现上述目的,本申请的另一个方面是提供一种文本主题提取装置,包括:
[0008]
模型构建模块,构建文本主题提取模型,其中,构建的文本主题提取模型包括卷积神经网络和注意力机制;
[0009]
模型训练模块,训练所述文本主题提取模型;
[0010]
获取模块,获取文本样本对应的文本词向量;
[0011]
输入模块,将所述文本词向量输入经过训练的文本主题提取模型;
[0012]
输出模块,输出与所述文本样本相应的文本主题,
[0013]
其中,所述文本主题提取模型包括卷积神经网络和注意力机制,所述模型构建模块包括:
[0014]
卷积神经网络构建子模块,构建卷积神经网络,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;
[0015]
权重施加子模块,通过注意力机制向所述卷积神经网络施加权重,所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0016]
为了实现上述目的,本申请的第三个方面是提供一种电子设备,该电子设备包括:处理器;存储器,所述存储器中包括文本主题提取程序,所述文本主题提取程序被所述处理器执行时实现如下所述的文本主题提取方法的步骤:
[0017]
构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题,其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述 激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0018]
为了实现上述目的,本申请的再一个方面是提供一种计算机非易失性可读存储介质,所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如上所述的文本主题提取方法的步骤。
[0019]
相对于现有技术,本申请具有以下优点和有益效果:
[0020]
本申请通过卷积神经网络与注意力机制相结合构建文本主题提取模型,提取与文本相应的文本主题,提高了文本主题提取模型的精度,同时提高了文本主题提取模型的运算效率,从而提高了通过所述文本主题提取模型对文本样本进行主题提取的效率。

附图说明

[0021]
图1为本申请所述文本主题提取方法的流程示意图;
[0022]
图2为本申请中文本主题提取程序的模块示意图。
[0023]
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0024]
下面将参考附图来描述本申请所述的实施例。本领域的普通技术人员可以认识到,在不偏离本申请的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,仅仅用以解释本申请,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
[0025]
图1为本申请所述文本主题提取方法的流程示意图,如图1所示,本申请所述文本主题提取方法,包括以下步骤:
[0026]
步骤S1、构建文本主题提取模型;
[0027]
步骤S2、训练所述文本主题提取模型;
[0028]
步骤S3、获取文本样本对应的文本词向量;
[0029]
步骤S4、将所述文本词向量输入经过训练的文本主题提取模型;
[0030]
步骤S5、输出与所述文本样本相应的文本主题,
[0031]
其中,步骤S1中构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置 注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0032]
本申请通过卷积神经网络与注意力机制相结合构建文本主题提取模型,提取与文本相应的文本主题,可以用于评语的关键词摘取。所述文本主题提取模型通过卷积神经网络进行卷积运算,并通过建立并行的位置注意力机制和通道注意力机制为不同的语义分配不同的权重,在提高文本主题提取模型的精度的同时,提高了文本主题提取模型的运算效率,从而提高了通过所述文本主题提取模型对文本样本进行主题提取的效率。
[0033]
本申请中,所述卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距(padding)的设置实现卷积层输入和输出维度一致。卷积核的数量越多,通过卷积层提取的文本特征越多,后续通过对文本特征向量的处理得到的文本主题越精确。但卷积核的数量越多,会影响文本主题提取模型的运行速度,所以,卷积核不宜过量。
[0034]
本申请的一个实施例中,卷积神经网络中激活层的激活函数采用ReLU函数,但本申请并不限于此,也可以是其他的激活函数形式,例如,Sigmoid函数或Tanh函数等形式。本申请中,将激活层的输出作为卷积神经网络的输出。
[0035]
优选地,训练所述文本主题提取模型的步骤包括:
[0036]
初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0037]
构建训练样本集,训练样本包括文本词向量和文本主题;
[0038]
将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;
[0039]
基于所述文本主题提取模型的损失函数更新所述参数,其中,损失函数为交叉熵函数;
[0040]
根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;
[0041]
判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。一般,预设阈值可以取为0.02,训练学习率为0.001。
[0042]
本申请中可以通过多种方式将文本样本转化为与其相对应的文本词向量。优选地,所述主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量,将得到的文本词向量输入所述卷积神经网络的输入层。但本申请并不限于此,本申请 还可以通过采用各种词向量模型将文本样本转化为与其对应的文本词向量,例如,Word2Vec模型、CBOW模型等。优选地,所述步骤S3中,获取文本样本对应的文本词向量的步骤包括:
[0043]
构建词向量模型,并根据语料库对所述词向量模型进行训练,其中,用于训练的语料库可以是中文维基百科语料库;
[0044]
对所述文本样本进行分词;
[0045]
将分词后的文本样本输入经过训练的词向量模型;
[0046]
输出与所述文本样本对应的文本词向量。
[0047]
根据文本样本确定文本长度,根据确定的文本长度对文本样本进行分词,本申请的一个实施例中,根据文本样本确定的文本长度为100,通过分词库(例如,jieba、Jcseg和HanLP等分词库)对文本样本进行分词,文本词向量的维度为300。
[0048]
本申请中,注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制根据文本位置特征对所述激活层的输出矩阵施加注意力,进行权重分配;所述通道注意力机制根据卷积核通道对所述激活层的输出施加注意力,进行权重分配。
[0049]
所述位置注意力机制和所述通道注意力机制并行建立,且均与所述激活层连接,所述位置注意力机制和所述通道注意力机制的输入均来源于所述激活层的输出,优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过不同的全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵,根据所述位置注意力权重矩阵和通道注意力权重矩阵分别对所述激活层的输出进行权重分配。
[0050]
进一步地,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层;所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层。
[0051]
本申请的一个实施例中,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为k,激活层的输出矩阵为k*m*1,处理时将激活层的输出矩阵转化为k*m,通过与激活层连接的不同的全连接隐含层对激活层的输出矩阵进行特征提取,将激活层的输出矩阵分别转化为维度为m*k和k*m的两个矩阵,并将两个矩阵进行乘法运算,得到维度为m*m的位置注意力权重矩阵,根据该位置注意力权重矩阵对激活层的输出进行权重分配,使得处于不同位置的语义得到不同的权重,以更加精确地提取文本主题。类似地,通过与激活层连接的不同的全连接隐含层对激活层的输出进行特征提取,将激活层的输出 矩阵分别转化为维度为k*m和m*k的两个矩阵,并将两个矩阵进行乘法运算,得到维度为k*k的通道注意力权重矩阵,根据该通道注意力权重矩阵对激活层的输出进行权重分配。
[0052]
例如,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为384,卷积神经网络激活层的输出矩阵为384*100*1的三维矩阵。对于位置注意力机制,首先将激活层的输出矩阵转化为384*100的二维矩阵,通过两个并行的全连接隐含层输出维度为100*384与384*100的两个矩阵,并将两个矩阵进行矩阵乘法运算及softmax映射,得到维度为100*100的位置注意力权重矩阵。在此基础上,通过另一个并行的全连接隐含层输出维度为384*100的第一转化矩阵,将第一转化矩阵与位置注意力权重矩阵进行矩阵乘法运算,得到维度为384*100的位置注意力特征矩阵并将其转化为384*100*1的三维矩阵,并与激活层输出的384*100*1的三维矩阵加和,作为位置注意力机制的输出结果。对于通道注意力机制,首先将激活层的输出矩阵转化为384*100的二维矩阵,通过两个并行的全连接隐含层输出维度为384*100与100*384的两个矩阵,并将两个矩阵进行矩阵乘法运算及softmax映射,得到维度为384*384的通道注意力权重矩阵。在此基础上,通过另一个并行的全连接隐含层输出维度为100*384的第二转化矩阵,将第二转化矩阵与通道注意力权重矩阵进行矩阵乘法,得到维度为100*384的通道注意力矩阵并将其转化为384*100*1的三维矩阵,并与激活层输出的384*100*1的三维矩阵加和,作为通道注意力机制的输出结果。将位置注意力机制和通道注意力机制的输出结果,输入全连接层,完成整个文本主题提取模型的输出,文本主题提取模型的输出维度为100,与文本样本确定的文本长度相同,对应输入的文本样本中每个词语的关键词标注。
[0053]
本申请中,通过注意力机制向激活层的输出矩阵施加不同的注意力权重,经过注意力机制得到位置注意力特征矩阵和通道注意力特征矩阵,将位置注意力特征矩阵和通道注意力特征矩阵分别与卷积神经网络的输出矩阵加和。例如,文本词向量经卷积神经网络激活层的作用得到10维输出矩阵,通过位置注意力机制向10维输出矩阵施加位置注意力得到10维的位置注意力特征矩阵,通过通道注意力机制向10维输出矩阵施加通道注意力得到10维的通道注意力特征矩阵,将10维的位置注意力特征矩阵与卷积神经网络的10维输出矩阵加和得到20维的输出矩阵,输入全连接层。类似地,将10维的通道注意力特征矩阵与卷积神经网络的10维输出矩阵加和得到20维的输出矩阵,输入全连接层,经全连接层输出文本主题。
[0054]
本申请所述文本主题提取方法应用于电子设备,所述电子设备可以是电视机、智能手机、平板电脑、计算机等终端设备。
[0055]
所述电子设备包括:处理器;存储器,用于存储文本主题提取程序,处理器执行所述文本主题提取程序,实现以下的文本主题提取方法的步骤:构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所 述文本样本相应的文本主题。
[0056]
其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0057]
所述电子设备还包括网络接口和通信总线等。其中,网络接口可以包括标准的有线接口、无线接口,通信总线用于实现各个组件之间的连接通信。
[0058]
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本申请中,存储器存储的软件程序包括文本主题提取程序,并可以向处理器提供该文本主题提取程序,以使得处理器可以执行该文本主题提取程序,实现文本主题提取方法的步骤。
[0059]
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序,例如,可以执行本申请中的文本主题提取程序。
[0060]
所述电子设备还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的工作界面。
[0061]
所述电子设备还可以包括用户接口,用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。
[0062]
本申请中,所述文本主题提取模型中的卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距(padding)的设置实现卷积层输入和输出维度一致。
[0063]
优选地,训练所述文本主题提取模型的步骤包括:
[0064]
初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0065]
构建训练样本集,训练样本包括文本词向量和文本主题;
[0066]
将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;
[0067]
基于所述文本主题提取模型的损失函数更新所述参数,其中,损失函数为交叉熵函数;
[0068]
根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值;
[0069]
判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。一般,预设阈值可以取为0.02,训练学习率为0.001。
[0070]
本申请中可以通过多种方式将文本样本转化为与其相对应的文本词向量。优选地,所述主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量,将得到的文本词向量输入所述卷积神经网络的输入层。但本申请并不限于此,本申请还可以通过采用各种词向量模型将文本样本转化为与其对应的文本词向量,例如,Word2Vec模型、CBOW模型等。优选地,获取文本样本对应的文本词向量的步骤包括:
[0071]
构建词向量模型,并根据语料库对所述词向量模型进行训练,其中,用于训练的语料库可以是中文维基百科语料库;
[0072]
对所述文本样本进行分词;
[0073]
将分词后的文本样本输入经过训练的词向量模型;
[0074]
输出与所述文本样本对应的文本词向量。
[0075]
根据文本样本确定文本长度,根据确定的文本长度对文本样本进行分词,本申请的一个实施例中,根据文本样本确定的文本长度为100,通过分词库(例如,jieba、Jcseg和HanLP等分词库)对文本样本进行分词,文本词向量的维度为300。
[0076]
优选地,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过不同的全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵,根据所述位置注意力权重矩阵和通道注意力权重矩阵分别对所述激活层的输出进行权重分配,所述位置注意力机制和所述通道注意力机制的输入均来源于所述激活层的输出。
[0077]
进一步地,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,输入所述全连接层;所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所 述通道注意力机制的输出结果,输入所述全连接层。
[0078]
本申请的一个实施例中,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为k,激活层的输出矩阵为k*m*1,处理时将激活层的输出矩阵转化为k*m,通过与激活层连接的不同的全连接隐含层对激活层的输出矩阵进行特征提取,将激活层的输出矩阵分别转化为维度为m*k和k*m的两个矩阵,并将两个矩阵进行乘法运算,得到维度为m*m的位置注意力权重矩阵,根据该位置注意力权重矩阵对激活层的输出进行权重分配,使得处于不同位置的语义得到不同的权重,以更加精确地提取文本主题。类似地,通过与激活层连接的不同的全连接隐含层对激活层的输出进行特征提取,将激活层的输出矩阵分别转化为维度为k*m和m*k的两个矩阵,并将两个矩阵进行乘法运算,得到维度为k*k的通道注意力权重矩阵,根据该通道注意力权重矩阵对激活层的输出进行权重分配。
[0079]
在其他实施例中,文本主题提取程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。图2为本申请中文本主题提取程序的模块示意图,如图2所示,所述文本主题提取程序可以被分割为:模型构建模块1、模型训练模块2、获取模块3、输入模块4和输出模块5。上述模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
[0080]
模型构建模块1,构建文本主题提取模型,其中,构建的文本主题提取模型包括卷积神经网络和注意力机制,具体构成如上文所述,在此不再赘述;
[0081]
模型训练模块2,训练所述文本主题提取模型;
[0082]
获取模块3,获取文本样本对应的文本词向量;
[0083]
输入模块4,将所述文本词向量输入经过训练的文本主题提取模型;
[0084]
输出模块5,输出与所述文本样本相应的文本主题。
[0085]
本申请的一个实施例中,一种文本主题提取装置,包括:
[0086]
模型构建模块1,构建文本主题提取模型,其中,构建的文本主题提取模型包括卷积神经网络和注意力机制;
[0087]
模型训练模块2,训练所述文本主题提取模型;
[0088]
获取模块3,获取文本样本对应的文本词向量;
[0089]
输入模块4,将所述文本词向量输入经过训练的文本主题提取模型;
[0090]
输出模块5,输出与所述文本样本相应的文本主题,
[0091]
其中,所述文本主题提取模型包括卷积神经网络和注意力机制,所述模型构建模块1包括:
[0092]
卷积神经网络构建子模块,构建卷积神经网络,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;
[0093]
权重施加子模块,通过注意力机制向所述卷积神经网络施加权重,所述 注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0094]
优选地,上述,所述权重施加子模块包括:
[0095]
位置注意力施加单元,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵;
[0096]
通道注意力施加单元,所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵。
[0097]
14.根据权利要求10所述的文本主题提取装置,其特征在于,所述获取模块包括:
[0098]
词向量模型构建单元,构建词向量模型,并根据语料库对所述词向量模型进行训练;
[0099]
分词单元,对所述文本样本进行分词;
[0100]
训练单元,对词向量模型构建单元构建的词向量模型进行训练;
[0101]
词向量获得单元,将分词后的文本样本输入经过训练的词向量模型,输出与所述文本样本对应的文本词向量。
[0102]
优选地,上述模型训练模块包括:
[0103]
初始化单元,初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值;
[0104]
训练样本集构建单元,构建训练样本集,训练样本包括文本词向量和文本主题;
[0105]
更新单元,将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;基于所述文本主题提取模型的损失函数更新所述参数;根据更新后的参数训练下一个训练样本;
[0106]
判断单元,判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。
[0107]
优选地,所述卷积神经网络还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐 含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[0108]
优选地,所述卷积神经网络还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[0109]
优选地,所述文本主题提取模型中的卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距的设置实现卷积层输入和输出维度一。
[0110]
本申请的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本申请并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如下的文本主题提取方法:
[0111]
构建文本主题提取模型;训练所述文本主题提取模型;获取文本样本对应的文本词向量;将所述文本词向量输入经过训练的文本主题提取模型;输出与所述文本样本相应的文本主题。
[0112]
其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用;所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果,将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[0113]
本申请之计算机可读存储介质的具体实施方式与上述文本主题提取方法、电子设备的具体实施方式大致相同,在此不再赘述。
[0114]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过 程、装置、物品或者方法中还存在另外的相同要素。
[0115]
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
[0116]
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

权利要求书

[权利要求 1]
一种文本主题提取方法,其特征在于,包括以下步骤: 构建文本主题提取模型; 训练所述文本主题提取模型; 获取文本样本对应的文本词向量; 将所述文本词向量输入经过训练的文本主题提取模型; 输出与所述文本样本相应的文本主题, 其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制, 所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用; 所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果; 通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果; 将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[权利要求 2]
根据权利要求1所述的文本主题提取方法,其特征在于,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[权利要求 3]
根据权利要求2所述的文本主题提取方法,其特征在于,得到所述位置注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵; 得到所述通道注意力特征矩阵的步骤包括:所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵。
[权利要求 4]
根据权利要求1所述的文本主题提取方法,其特征在于,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[权利要求 5]
根据权利要求1所述的文本主题提取方法,其特征在于,获取文本样 本对应的文本词向量的步骤包括: 构建词向量模型,并根据语料库对所述词向量模型进行训练; 对所述文本样本进行分词; 将分词后的文本样本输入经过训练的词向量模型; 输出与所述文本样本对应的文本词向量。
[权利要求 6]
根据权利要求1所述的文本主题提取方法,其特征在于,训练所述文本主题提取模型的步骤包括: 初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值; 构建训练样本集,训练样本包括文本词向量和文本主题; 将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题; 基于所述文本主题提取模型的损失函数更新所述参数; 根据更新后的参数训练下一个训练样本,并计算所述文本主题提取模型的损失函数值; 判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。
[权利要求 7]
根据权利要求6所述的文本主题提取方法,其特征在于,所述预设阈值为0.02,所述训练学习率为0.001。
[权利要求 8]
根据权利要求1所述的文本主题提取方法,其特征在于,所述文本主题提取模型中的卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距的设置实现卷积层输入和输出维度一。
[权利要求 9]
根据权利要求2所述的文本主题提取方法,其特征在于,卷积神经网络的卷积核为单维卷积核,卷积核通道数总量为k,激活层的输出矩阵为k*m*1,处理时将激活层的输出矩阵转化为k*m,通过与激活层连接的不同的全连接隐含层对激活层的输出矩阵进行特征提取,将激活层的输出矩阵分别转化为维度为m*k和k*m的两个矩阵,并将两个矩阵进行乘法运算,得到维度为m*m的位置注意力权重矩阵,根据该位置注意力权重矩阵对激活层的输出进行权重分配,使得处于不同位置的语义得到不同的权。
[权利要求 10]
一种文本主题提取装置,其特征在于,包括:模型构建模块,构建文本主题提取模型,其中,构建的文本主题提取模型包括卷积神经网络和注意力机制; 模型训练模块,训练所述文本主题提取模型; 获取模块,获取文本样本对应的文本词向量; 输入模块,将所述文本词向量输入经过训练的文本主题提取模型; 输出模块,输出与所述文本样本相应的文本主题, 其中,所述文本主题提取模型包括卷积神经网络和注意力机制,所述模型构建模块包括: 卷积神经网络构建子模块,构建卷积神经网络,所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用; 权重施加子模块,通过注意力机制向所述卷积神经网络施加权重,所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果;通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出矩阵加和,得到所述通道注意力机制的输出结果;将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[权利要求 11]
根据权利要求10所述的文本主题提取装置,其特征在于,所述卷积神经网络还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[权利要求 12]
根据权利要求10所述的文本主题提取装置,其特征在于,所述权重施加子模块包括: 位置注意力施加单元,所述激活层的输出矩阵通过一个全连接隐含层输出第一转化矩阵,将所述第一转化矩阵与所述位置注意力权重矩阵进行矩阵乘法运算,得到位置注意力特征矩阵; 通道注意力施加单元,所述激活层的输出矩阵通过另一个全连接隐含层输出第二转化矩阵,将所述第二转化矩阵与所述通道注意力权重矩阵进行矩阵乘法运算,得到通道注意力特征矩阵。
[权利要求 13]
根据权利要求10所述的文本主题提取装置,其特征在于,所述卷积神经网络还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[权利要求 14]
根据权利要求10所述的文本主题提取装置,其特征在于,所述获取模块包括: 词向量模型构建单元,构建词向量模型,并根据语料库对所述词向量模型进行训练; 分词单元,对所述文本样本进行分词; 训练单元,对词向量模型构建单元构建的词向量模型进行训练; 词向量获得单元,将分词后的文本样本输入经过训练的词向量模型,输出与所述文本样本对应的文本词向量。
[权利要求 15]
根据权利要求10所述的文本主题提取装置,其特征在于,所述模型训练模块包括: 初始化单元,初始化所述文本主题提取模型的参数,所述参数包括:输入层与卷积层的连接权值、卷积层与激活层的连接权值、激活层和全连接层的连接权值; 训练样本集构建单元,构建训练样本集,训练样本包括文本词向量和文本主题; 更新单元,将所述训练样本集中的一个训练样本输入所述文本主题提取模型中,输出与所述训练样本对应的文本主题;基于所述文本主题提取模型的损失函数更新所述参数;根据更新后的参数训练下一个训练样本; 判断单元,判断所述文本主题提取模型的训练是否达到收敛条件,若达到收敛条件,则结束训练,得到训练后的文本主题提取模型,若未达到收敛条件,则更新所述文本主题提取模型的参数,继续训练,其中,所述收敛条件为损失函数值的变化小于预设阈值。
[权利要求 16]
根据权利要求10所述的文本主题提取装置,其特征在于,所述文本主题提取模型中的卷积神经网络的卷积层包括多个一维卷积核,每个卷积核均有128通道,多个所述卷积核的步长分别为1、3和5,每种步长的卷积核各占卷积核总量的1/3,通过内边距的设置实现卷积层输入和输出维度一。
[权利要求 17]
一种电子设备,其特征在于,该电子设备包括: 处理器; 存储器,所述存储器中包括文本主题提取程序,所述文本主题提取程序被所述处理器执行时实现如下所述的文本主题提取方法的步骤: 构建文本主题提取模型; 训练所述文本主题提取模型; 获取文本样本对应的文本词向量; 将所述文本词向量输入经过训练的文本主题提取模型; 输出与所述文本样本相应的文本主题, 其中,构建的所述文本主题提取模型包括卷积神经网络和注意力机制, 所述卷积神经网络包括输入层、卷积层、激活层和全连接层,输入层用于输入文本词向量,卷积层用于对所述文本词向量进行卷积运算,提取文本特征,得到文本特征向量,所述激活层用于对所述文本特征向量进行激活作用; 所述注意力机制包括位置注意力机制和通道注意力机制,所述位置注意力机制和所述通道注意力机制并行建立,均与所述激活层连接,通过所述位置注意力机制向所述激活层的输出矩阵施加位置注意力权重,得到位置注意力特征矩阵,将所述位置注意力特征矩阵与所述激活层的输出矩阵加和,得到所述位置注意力机制的输出结果; 通过所述通道注意力机制向所述激活层的输出矩阵施加通道注意力权重,得到通道注意力特征矩阵,将所述通道注意力特征矩阵与所述激活层的输出 矩阵加和,得到所述通道注意力机制的输出结果; 将所述位置注意力机制的输出结果和所述通道注意力机制的输出结果均输入所述全连接层,通过所述全连接层输出文本主题。
[权利要求 18]
根据权利要求17所述的电子设备,其特征在于,所述文本主题提取模型还包括多个全连接隐含层,多个全连接隐含层并行设置,且每个全连接隐含层均与所述激活层连接,通过所述全连接隐含层将所述激活层的输出矩阵分别转化为位置注意力权重矩阵和通道注意力权重矩阵。
[权利要求 19]
根据权利要求18所述的电子设备,其特征在于,所述文本主题提取模型还包括嵌入层,所述嵌入层位于所述文本主题提取模型的第一层,通过所述嵌入层将文本样本转化为文本词向量。
[权利要求 20]
一种计算机非易失性可读存储介质,其特征在于,所述计算机可读存储介质中包括文本主题提取程序,所述文本主题提取程序被处理器执行时,实现如权利要求1至9中任一项所述的文本主题提取方法的步骤。

附图

[ 图 1]  
[ 图 2]