Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020114108 - CLUSTERING RESULT INTERPRETATION METHOD AND DEVICE

Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177   0178   0179   0180   0181   0182   0183   0184   0185   0186   0187   0188   0189   0190   0191   0192   0193   0194   0195   0196   0197  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17  

附图

1   2   3   4   5  

说明书

发明名称 : 聚类结果的解释方法和装置

技术领域

[0001]
本说明书涉及机器学习技术领域,尤其涉及一种聚类结果的解释方法和装置。

背景技术

[0002]
嵌入(Embedding)在数学上表示一种映射,可将一个空间映射到另一个空间,并保留基本属性。利用嵌入算法可将一些复杂的难以表达的特征转换成易计算的形式,例如:向量、矩阵等,便于机器学习模型进行处理。然而,嵌入算法并不具有解释性,这就导致对嵌入结果进行聚类的聚类模型不具有解释性,无法满足业务场景的需求。
[0003]
发明内容
[0004]
有鉴于此,本说明书提供一种聚类结果的解释方法和装置。
[0005]
具体地,本说明书是通过如下技术方案实现的:
[0006]
一种聚类结果的解释方法,包括:
[0007]
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0008]
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0009]
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0010]
针对每个类别,从所述类别中提取若干嵌入对象;
[0011]
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
[0012]
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0013]
一种风险团伙识别模型的识别结果解释方法,包括:
[0014]
采用嵌入算法对用户节点进行嵌入处理,得到每个用户节点的嵌入结果;
[0015]
采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签;
[0016]
采用所述用户节点的特征和所述风险团伙标签对解释模型进行训练;
[0017]
针对每个风险团伙,从所述风险团伙中提取若干用户节点;
[0018]
基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征;
[0019]
汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应应该风险团伙的解释特征。
[0020]
一种文本聚类模型的聚类结果解释方法,包括:
[0021]
采用嵌入算法对待聚类文本进行嵌入处理,得到每个文本的嵌入结果;
[0022]
采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本的类别标签;
[0023]
采用所述文本的特征和所述类别标签对解释模型进行训练;
[0024]
针对每个类别,从所述类别中提取若干文本;
[0025]
基于提取的每个文本的特征和已训练的解释模型确定所述文本属于所述类别的解释特征;
[0026]
汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
[0027]
一种聚类结果的解释装置,包括:
[0028]
嵌入处理单元,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0029]
对象聚类单元,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0030]
模型训练单元,采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0031]
对象提取单元,针对每个类别,从所述类别中提取若干嵌入对象;
[0032]
特征确定单元,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
[0033]
特征汇总单元,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0034]
一种聚类结果的解释装置,包括:
[0035]
处理器;
[0036]
用于存储机器可执行指令的存储器;
[0037]
其中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
[0038]
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0039]
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0040]
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0041]
针对每个类别,从所述类别中提取若干嵌入对象;
[0042]
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
[0043]
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0044]
由以上描述可以看出,本说明书可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定每个类别下各嵌入对象类别划分的解释特征,然后可汇总同一分类中嵌入对象的解释特征,得到聚类模型在该类别下的解释特征,实现对聚类结果的解释,从而为开发者修复聚类模型的偏差提供依据,有助于提升模型的泛化能力和性能,并且有助于规避法律风险和道德风险。

附图说明

[0045]
图1是本说明书一示例性实施例示出的一种聚类结果的解释方法的流程示意图。
[0046]
图2是本说明书一示例性实施例示出的另一种聚类结果的解释方法的流程示意图。
[0047]
图3是本说明书一示例性实施例示出的一种决策树示意图。
[0048]
图4是本说明书一示例性实施例示出的一种用于聚类结果的解释装置的一结构示意图。
[0049]
图5是本说明书一示例性实施例示出的一种聚类结果的解释装置的框图。

具体实施方式

[0050]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
[0051]
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0052]
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0053]
本说明书提供一种聚类结果的解释方案,一方面可采用聚类模型对嵌入对象的嵌入结果进行聚类,得到每个嵌入对象的类别标签;另一方面可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定在每个类别中提取的嵌入对象属于所述类别的解释特征,然后再汇总同一类别中提取的每个嵌入对象的解释特征,得到上述聚类模型在该类别下的解释特征,从而实现聚类模型的解释。
[0054]
图1和图2是本说明书一示例性实施例示出的聚类结果的解释方法的流程示意图。
[0055]
请参考图1和图2,所述聚类结果的解释方法可包括以下步骤:
[0056]
步骤102,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果。
[0057]
步骤104,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签。
[0058]
在一个例子中,所述嵌入对象可以是图结构中的图节点。
[0059]
例如,所述嵌入对象可以是用户网络图中的用户节点。所述用户网络图可基于用户的支付数据、好友关系数据等建立。
[0060]
采用嵌入算法对用户网络图中的用户节点进行嵌入处理后,可得到每个用户节点对应的向量。
[0061]
将各个用户节点对应的向量作为入参输入聚类模型,可得到每个用户节点的类别标签。
[0062]
在另一个例子中,所述嵌入对象可以是待聚类的文本,例如:新闻、资讯等。
[0063]
采用嵌入算法对每个文本所包括的词汇进行嵌入处理,可得到每个文本中各个词汇对应的向量,即可得到每个文本对应的向量集。
[0064]
将每个文本对应的向量集作为入参输入聚类模型,可得到每个文本的类别标签。
[0065]
例如,文本1对应科技类别标签1,文本2对应体育类别标签2等,可表示文本1属于科技类文本,文本2属于体育类文本等。
[0066]
在本实施例中,为便于描述,可将嵌入对象经嵌入算法处理后得到的向量、矩阵等统称为嵌入结果。采用嵌入结果作为入参进行机器学习计算,可有效提高机器处理效率。
[0067]
在其他例子中,嵌入结果的计算和聚类模型的聚类可同时进行,例如,可将嵌入算法和聚类模型结合,将嵌入对象作为入参输入结合后的模型,由结合后的模型进行嵌入结果的计算以及嵌入对象的聚类,本说明书对此不作特殊限制。
[0068]
步骤106,采用所述嵌入对象的特征和类别标签对解释模型进行训练。
[0069]
在本实施例中,可采用具有解释性的多分类模型作为所述解释模型,例如线性模型、决策树等,本说明书对此不作特殊限制。
[0070]
所述嵌入对象的特征可包括嵌入对象的原始特征和拓扑特征。
[0071]
其中,所述原始特征通常是嵌入对象自身已有的特征。
[0072]
例如,用户节点的原始特征可包括用户的年龄、性别、职业、收入等。
[0073]
再例如,文本的原始特征可包括词汇的词性、词频等。
[0074]
所述拓扑特征可用于表示嵌入对象的拓扑结构。
[0075]
以嵌入对象是图节点为例,所述拓扑特征可包括:一阶邻居数据、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值等。
[0076]
仍以风险团伙识别为例,所述一阶邻居在指定原始特征维度下的统计值可以是一阶邻居的平均年龄、一阶邻居的年龄最大值、一阶邻居的平均年收入、一阶邻居的年收入最小值等。
[0077]
以嵌入对象是文本所包括的词汇为例,所述拓扑特征可包括:最常出现在该词汇前面的词汇、经常和该词汇搭配出现的词汇个数等。
[0078]
在本实施例中,采用拓扑特征对原始特征进行补充,一方面可解决部分嵌入对象没有原始特征的问题,另一方面还可将嵌入对象的拓扑结构补充到特征中,从而提高解释模型训练结果的准确性。
[0079]
步骤108,针对每个类别,从所述类别中提取若干嵌入对象。
[0080]
在本实施例中,针对前述聚类模型输出的每个类别,可从该类别中提取若干嵌入对象。其中,提取的嵌入对象数量可预先设置,例如5000、3000等;提取的嵌入对象数量还可是对应类别下嵌入对象总数量的百分比,例如百分之50、百分之30等,本说明书对此不作特殊限制。
[0081]
步骤110,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征。
[0082]
在本实施例中,针对提取的每个嵌入对象,可基于已训练的解释模型计算所述嵌入对象的每个特征对嵌入对象类别划分结果的贡献值,然后可将贡献值满足预定条件的特征作为该嵌入对象属于所述类别的解释特征。
[0083]
例如,可将所述嵌入对象的各个特征按照贡献值从大到小的顺序进行排序,可将排列在前5位、前8位的特征作为该嵌入对象属于所述类别的解释特征,本说明书对此不作特殊限制。
[0084]
步骤112,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0085]
在一个例子中,针对同一类别,在进行汇总时,可计算各个解释特征出现的总次数,然后选取总次数最多的若干个解释特征作为所述聚类模型在该类别下的解释特征。
[0086]
[表0001]
嵌入对象 解释特征
嵌入对象1 特征1-5
嵌入对象2 特征2-6
嵌入对象3 特征7-11
嵌入对象4 特征1-4,特征15
嵌入对象5 特征1-3,特征13-14

[0087]
表1
[0088]
请参考表1的示例,假设某个类别中有5个嵌入对象,分别为嵌入对象1至嵌入对象5,嵌入对象1属于其类别划分结果的解释特征是特征1-特征5,嵌入对象2属于其类别划分结果的解释特征是特征2-特征6,则可汇总所述类别中各个特征出现的次数,得到表2所示的统计结果。
[0089]
[表0002]
解释特征 出现次数
特征1、特征4 3
特征2、特征3 4
特征5 2
特征6-特征11、特征13-特征15 1

[0090]
表2
[0091]
请参考表2的示例,通过计算可得特征1和特征4均出现3次,特征2和特征3均出现4次等。
[0092]
在本例中,假设选取出现次数最多的5个解释特征,则可选取出特征1-特征5,并将特征1-特征5作为所述聚类模型在该类别下的解释特征。
[0093]
在另一个例子中,针对同一类别,在进行汇总时,可计算该类别下各个解释特征的贡献值之和,然后选取贡献值之和最多的若干个解释特征作为所述聚类模型在该类别下的解释特征。
[0094]
请继续参考表1和表2的示例,特征1的贡献值之和等于特征1在嵌入对象1中的贡献值加上特征1在嵌入对象4中的贡献值再加上特征1在嵌入对象5中的贡献值。类似的,可计算表2所示的各个特征的贡献值之和,然后可选取贡献值之和排列在前5位的解释特征作为聚类模型在该类别下的解释特征。
[0095]
在本实施例中,通过汇总各类别下提取的每个嵌入对象的解释特征,可得到所述聚类模型在该类别下的解释特征,实现聚类模型的结果解释。
[0096]
由以上描述可以看出,本说明书可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定每个类别下各嵌入对象类别划分的解释特征,然后可汇总同一分类中嵌入对象的解释特征,得到聚类模型在该类别下的解释特征,实现对聚类结果的解释,从而为开发者修复聚类模型的偏差提供依据,有助于提升模型的泛化能力和性能,并且有助于规避法律风险和道德风险。
[0097]
下面分别以解释模型是线性模型和决策树为例,对特征贡献值的计算方法进行详 细描述。
[0098]
一、线性模型
[0099]
在本实施例中,当解释模型是线性模型时,在采用嵌入对象的特征和类别标签对该线性模型进行训练后,可得到每个类别下各个嵌入对象特征的权重。
[0100]
[0101]
表3
[0102]
请参考表3的示例,假设在类别1中,特征1的权重是W1,特征2的权重是W2,依次类推。在计算某嵌入对象各特征对类别划分结果的贡献值时,可先获取在该嵌入对象所属的类别下各特征的权重,然后计算嵌入对象特征值与对应权重的乘积,并将该乘积作为所述贡献值。
[0103]
例如,特征1对嵌入对象1的类别划分结果的贡献值等于嵌入对象1的特征1的特征值乘以W1;特征2对嵌入对象1的类别划分结果的贡献值等于嵌入对象1的特征2的特征值乘以W2等,本说明书在此不再一一赘述。
[0104]
二、决策树
[0105]
在本实施例中,当解释模型是决策树时,在嵌入对象的特征和类别标签对该决策树进行训练后,可得到决策树中各特征的分裂点。
[0106]
请参考图3所示的决策树,图3所示的决策树中的各个树节点都可代表唯一的一个特征,例如树节点1代表用户年龄、树节点2代表用户年收入等。该决策树中各特征的分裂点通常指对应特征的特征阈值,例如,年龄树节点的分裂点是50,当用户年龄小于等于50时,可确定选择分叉路径12,当用户年龄大于50时,可确定选择分叉路径13等。
[0107]
在本实施例中,在确定嵌入对象特征的贡献值时,可先将嵌入对象输入已训练的决策树,然后可在决策树对该嵌入对象进行类别划分的过程中,确定该嵌入对象在所述决策树中经过的路径,并获取该路径上的各个特征及所述特征的分裂点。
[0108]
仍以图3为例,假设某嵌入对象在图3所示的决策树中经过的路径是树节点1->树 节点2->树节点4,则可获取树节点1、树节点2和树节点4这3个树节点所代表的特征以及所述特征的分裂点。
[0109]
针对获取到的每个特征及其分裂点,计算该嵌入对象对应的特征值和所述分裂点之间的距离,并可将该距离作为所述特征对该嵌入对象类别划分结果的贡献值。
[0110]
仍以树节点1代表用户年龄,其分裂点是50为例,假设某嵌入对象的用户年龄是20岁,则特征用户年龄的贡献值是50与20的差值,即30。当然,在实际应用中,在计算得到上述距离后,还可对距离进行归一化处理,并可将归一化结果作为对应的贡献值,本说明书对此不作特殊限制。
[0111]
本说明书还提供一种对风险团伙识别模型的识别结果进行解释的方法。
[0112]
一方面,可采用嵌入算法对用户网络图中的用户节点进行嵌入处理,得到每个用户节点的嵌入结果,然后采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签。
[0113]
另一方面,可采用用户节点的特征和所述的风险团伙标签对具有解释性的解释模型进行训练。在训练完毕后,针对每个风险团伙,可从该风险团伙中提取若干用户节点,并基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征,然后可汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应该风险团伙的解释特征。
[0114]
在本实施例中,可得到风险团伙识别模型对应识别出的各个风险团伙的解释特征。
[0115]
例如,风险团伙1的解释特征可包括:无固定职业、年收入低于8万、常住地广西、年龄18-25周岁等。可表示风险团伙识别模型通过这些用户特征识别出风险团伙1。
[0116]
再例如,风险团伙2的解释特征可包括:无固定职业、年收入低于10万、常住地云南、年龄20-28周岁、使用Wi-Fi网络的SSID是12345等。可表示风险团伙识别模型通过这些用户特征识别出风险团伙2。
[0117]
本说明书还提供一种文本聚类模型的聚类结果解释方法。
[0118]
一方面,可采用嵌入算法对待聚类的文本中各词汇进行嵌入处理,得到每个文本的嵌入结果,然后采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本所属的类别标签。
[0119]
另一方面,可采用所述文本的特征和所述类别标签对具有解释性的解释模型进行 训练。在训练完毕后,针对每个类别,可从该类别中提取若干文本,并基于提取的每个文本的特征和已训练的解释模型确定所提取文本属于所述类别的解释特征,然后可汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
[0120]
在本实施例中,可得到所述文本聚类模型聚类出的各个文本类别的解释特征。
[0121]
例如,科技类文本的解释特征可包括:计算机、人工智能、技术、创新、技术的词频大于0.01等。可表示文本聚类模型通过这些特征确定出属于科技类别的文本。
[0122]
再例如,体育类文本的解释特征可包括:足球、篮球、运动、游泳、记录等。可表示文本聚类模型通过这些特征确定出属于体育类别的文本。
[0123]
与前述聚类结果的解释方法的实施例相对应,本说明书还提供了聚类结果的解释装置的实施例。
[0124]
本说明书聚类结果的解释装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书聚类结果的解释装置所在服务器的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
[0125]
图5是本说明书一示例性实施例示出的一种聚类结果的解释装置的框图。
[0126]
请参考图5,所述聚类结果的解释装置400可以应用在前述图4所示的服务器中,包括有:嵌入处理单元401、对象聚类单元402、模型训练单元403、对象提取单元404、特征确定单元405以及特征汇总单元406。
[0127]
其中,嵌入处理单元401,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0128]
对象聚类单元402,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0129]
模型训练单元403,采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0130]
对象提取单元404,针对每个类别,从所述类别中提取若干嵌入对象;
[0131]
特征确定单元405,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述 嵌入对象属于所述类别的解释特征;
[0132]
特征汇总单元406,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0133]
可选的,所述特征确定单元405:
[0134]
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
[0135]
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
[0136]
可选的,当所述解释模型是线性模型时,所述特征确定单元405:
[0137]
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
[0138]
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
[0139]
可选的,当所述解释模型是决策树时,所述特征确定单元405:
[0140]
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
[0141]
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
[0142]
可选的,所述特征确定单元405:
[0143]
按照贡献值从大到小的顺序对特征进行排序;
[0144]
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
[0145]
可选的,所述特征包括:原始特征和拓扑特征。
[0146]
可选的,所述拓扑特征包括以下一种或多种:
[0147]
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
[0148]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0149]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0150]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
[0151]
与前述聚类结果的解释方法的实施例相对应,本说明书还提供一种聚类结果的解释装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
[0152]
在本实施例中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
[0153]
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0154]
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0155]
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0156]
针对每个类别,从所述类别中提取若干嵌入对象;
[0157]
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
[0158]
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0159]
可选的,在基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征时,所述处理器被促使:
[0160]
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别 划分结果的贡献值;
[0161]
提取贡献值满足预定条件的特征作为所述嵌入对象的解释特征。
[0162]
可选的,当所述解释模型是线性模型时,在基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值时,所述处理器被促使:
[0163]
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
[0164]
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
[0165]
可选的,当所述解释模型是决策树时,在基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值时,所述处理器被促使:
[0166]
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
[0167]
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
[0168]
可选的,在提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征时,所述处理器被促使:
[0169]
按照贡献值从大到小的顺序对特征进行排序;
[0170]
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
[0171]
可选的,所述特征包括:原始特征和拓扑特征。
[0172]
可选的,所述拓扑特征包括以下一种或多种:
[0173]
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
[0174]
与前述聚类结果的解释方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
[0175]
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
[0176]
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
[0177]
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
[0178]
针对每个类别,从所述类别中提取若干嵌入对象;
[0179]
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
[0180]
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[0181]
可选的,所述基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征,包括:
[0182]
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
[0183]
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
[0184]
可选的,当所述解释模型是线性模型时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
[0185]
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
[0186]
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
[0187]
可选的,当所述解释模型是决策树时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
[0188]
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
[0189]
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
[0190]
可选的,所述提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征,包括:
[0191]
按照贡献值从大到小的顺序对特征进行排序;
[0192]
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
[0193]
可选的,所述特征包括:原始特征和拓扑特征。
[0194]
可选的,所述拓扑特征包括以下一种或多种:
[0195]
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
[0196]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0197]
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

权利要求书

[权利要求 1]
一种聚类结果的解释方法,包括: 采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果; 采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签; 采用所述嵌入对象的特征和类别标签对解释模型进行训练; 针对每个类别,从所述类别中提取若干嵌入对象; 基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征; 汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[权利要求 2]
根据权利要求1所述的方法,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征,包括: 针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值; 提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
[权利要求 3]
根据权利要求2所述的方法,当所述解释模型是线性模型时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括: 获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重; 计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
[权利要求 4]
根据权利要求2所述的方法,当所述解释模型是决策树时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括: 在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点; 计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
[权利要求 5]
根据权利要求2所述的方法,提取所述贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征,包括: 按照贡献值从大到小的顺序对特征进行排序; 提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
[权利要求 6]
根据权利要求1所述的方法, 所述特征包括:原始特征和拓扑特征。
[权利要求 7]
根据权利要求6所述的方法,所述拓扑特征包括以下一种或多种: 一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
[权利要求 8]
一种风险团伙识别模型的识别结果解释方法,包括: 采用嵌入算法对用户节点进行嵌入处理,得到每个用户节点的嵌入结果; 采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签; 采用所述用户节点的特征和所述风险团伙标签对解释模型进行训练; 针对每个风险团伙,从所述风险团伙中提取若干用户节点; 基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征; 汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应应该风险团伙的解释特征。
[权利要求 9]
一种文本聚类模型的聚类结果解释方法,包括: 采用嵌入算法对待聚类文本进行嵌入处理,得到每个文本的嵌入结果; 采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本的类别标签; 采用所述文本的特征和所述类别标签对解释模型进行训练; 针对每个类别,从所述类别中提取若干文本; 基于提取的每个文本的特征和已训练的解释模型确定所述文本属于所述类别的解释特征; 汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
[权利要求 10]
一种聚类结果的解释装置,包括: 嵌入处理单元,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果; 对象聚类单元,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签; 模型训练单元,采用所述嵌入对象的特征和类别标签对解释模型进行训练; 对象提取单元,针对每个类别,从所述类别中提取若干嵌入对象; 特征确定单元,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征; 特征汇总单元,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
[权利要求 11]
根据权利要求10所述的装置,所述特征确定单元: 针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值; 提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
[权利要求 12]
根据权利要求11所述的装置,当所述解释模型是线性模型时,所述特征确定单元: 获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重; 计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
[权利要求 13]
根据权利要求11所述的装置,当所述解释模型是决策树时,所述特征确定单元: 在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点; 计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
[权利要求 14]
根据权利要求11所述的装置,所述特征确定单元: 按照贡献值从大到小的顺序对特征进行排序; 提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
[权利要求 15]
根据权利要求10所述的装置, 所述特征包括:原始特征和拓扑特征。
[权利要求 16]
根据权利要求15所述的装置,所述拓扑特征包括以下一种或多种: 一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
[权利要求 17]
一种聚类结果的解释装置,包括: 处理器; 用于存储机器可执行指令的存储器; 其中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使: 采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果; 采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签; 采用所述嵌入对象的特征和类别标签对解释模型进行训练; 针对每个类别,从所述类别中提取若干嵌入对象; 基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征; 汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]