이 애플리케이션의 일부 콘텐츠는 현재 사용할 수 없습니다.
이 상황이 계속되면 다음 주소로 문의하십시오피드백 및 연락
1. (WO2019062416) APPLICATION CLEANING METHOD AND APPARATUS, STORAGE MEDIUM AND ELECTRONIC DEVICE
Document

说明书

发明名称 0001   0002   0003   0004   0005   0006   0007   0008   0009   0010   0011   0012   0013   0014   0015   0016   0017   0018   0019   0020   0021   0022   0023   0024   0025   0026   0027   0028   0029   0030   0031   0032   0033   0034   0035   0036   0037   0038   0039   0040   0041   0042   0043   0044   0045   0046   0047   0048   0049   0050   0051   0052   0053   0054   0055   0056   0057   0058   0059   0060   0061   0062   0063   0064   0065   0066   0067   0068   0069   0070   0071   0072   0073   0074   0075   0076   0077   0078   0079   0080   0081   0082   0083   0084   0085   0086   0087   0088   0089   0090   0091   0092   0093   0094   0095   0096   0097   0098   0099   0100   0101   0102   0103   0104   0105   0106   0107   0108   0109   0110   0111   0112   0113   0114   0115   0116   0117   0118   0119   0120   0121   0122   0123   0124   0125   0126   0127   0128   0129   0130   0131   0132   0133   0134   0135   0136   0137   0138   0139   0140   0141   0142   0143   0144   0145   0146   0147   0148   0149   0150   0151   0152   0153   0154   0155   0156   0157   0158   0159   0160   0161   0162   0163   0164   0165   0166   0167   0168   0169   0170   0171   0172   0173   0174   0175   0176   0177   0178   0179   0180   0181   0182   0183   0184   0185   0186   0187   0188   0189   0190   0191   0192   0193   0194   0195   0196   0197   0198   0199   0200   0201   0202   0203   0204   0205   0206   0207   0208   0209   0210   0211   0212   0213   0214   0215   0216   0217   0218   0219   0220   0221   0222   0223   0224   0225   0226   0227   0228   0229   0230   0231   0232   0233   0234   0235   0236   0237   0238   0239   0240   0241   0242   0243   0244   0245   0246   0247   0248   0249   0250   0251   0252   0253   0254   0255   0256   0257   0258   0259   0260   0261   0262   0263   0264   0265   0266   0267   0268   0269   0270   0271   0272   0273   0274   0275   0276   0277   0278   0279   0280   0281   0282   0283   0284   0285   0286   0287   0288   0289   0290   0291   0292   0293   0294   0295   0296   0297   0298   0299   0300   0301   0302   0303   0304   0305   0306   0307   0308   0309   0310   0311   0312   0313   0314   0315   0316   0317   0318   0319   0320   0321   0322   0323   0324   0325   0326   0327   0328   0329   0330   0331   0332   0333   0334   0335   0336   0337   0338   0339   0340   0341   0342   0343   0344   0345   0346   0347   0348   0349   0350   0351   0352   0353   0354   0355   0356   0357   0358   0359   0360   0361   0362   0363   0364   0365   0366   0367   0368   0369   0370   0371   0372   0373   0374   0375  

权利要求书

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20  

附图

1   2   3   4   5   6   7   8   9   10  

说明书

发明名称 : 应用清理方法、装置、存储介质及电子设备

[0001]
本申请要求于2017年09月30日提交中国专利局、申请号为201710944852.X、发明名称为“应用清理方法、装置、存储介质及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。

技术领域

[0002]
本发明涉及电子设备通信技术领域,尤其涉及一种应用清理方法、装置、存储介质及电子设备。

背景技术

[0003]
目前,智能手机等电子设备上,通常会有多个应用同时运行,其中,一个应用在前台运行,其他应用在后台运行。如果长时间不清理后台运行的应用,则会导致电子设备的可用内存变小、中央处理器(central processing unit,CPU)占用率过高,导致电子设备出现运行速度变慢,卡顿,耗电过快等问题。
[0004]
发明内容
[0005]
本申请实施例提供了一种应用清理方法、装置、存储介质及电子设备,能够提高电子设备的运行流畅度,降低功耗。
[0006]
第一方面,本申请实施例了提供了的一种应用清理方法,包括:
[0007]
采集应用的多维特征作为样本,并构建所述应用的样本集;
[0008]
根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
[0009]
根据预测时间采集所述应用的多维特征作为预测样本;
[0010]
根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0011]
第二方面,本申请实施例了提供了的一种应用清理装置,包括:
[0012]
第一采集单元,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
[0013]
分类单元,用于根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
[0014]
第二采集单元,用于根据预测时间采集所述应用的多维特征作为预测样本;
[0015]
预测单元,用于根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0016]
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的应用清理方法。
[0017]
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的应用清理方法。

附图说明

[0018]
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]
图1为本申请实施例提供的应用清理方法的应用场景示意图。
[0020]
图2是本申请实施例提供的应用清理方法的一个流程示意图。
[0021]
图3是本申请实施例提供的一种决策树的示意图。
[0022]
图4是本申请实施例提供的另一种决策树的示意图。
[0023]
图5是本申请实施例提供的又一种决策树的示意图。
[0024]
图6是本申请实施例提供的应用清理方法的另一个流程示意图。
[0025]
图7是本申请实施例提供的应用清理装置的一个结构示意图。
[0026]
图8是本申请实施例提供的应用清理装置的另一结构示意图。
[0027]
图9是本申请实施例提供的电子设备的一个结构示意图。
[0028]
图10是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

[0029]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0030]
本申请实施例提供了一种应用清理方法,包括:
[0031]
采集应用的多维特征作为样本,并构建所述应用的样本集;
[0032]
根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
[0033]
根据预测时间采集所述应用的多维特征作为预测样本;
[0034]
根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0035]
在一些实施例中,根据所述特征对于样本分类的信息增益对所述样本集进行样本分类,以构建出所述应用的决策树模型,包括:
[0036]
生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;
[0037]
将所述根节点的样本集确定为当前待分类的目标样本集;
[0038]
获取目标样本集内所述特征对于目标样本集分类的信息增益率;
[0039]
根据所述信息增益率选取从所述特征中选取当前的划分特征;
[0040]
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
[0041]
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
[0042]
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
[0043]
判断子节点是否满足预设分类终止条件;
[0044]
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于目标样本集分类的信息增益率的步骤;
[0045]
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[0046]
在一些实施例中,根据所述划分特征对所述目标样本集进行划分,包括:
[0047]
获取所述目标样本集中划分特征的特征值;
[0048]
根据所述特征值对所述目标样本集进行划分。
[0049]
在一些实施例中,根据所述信息增益率选取从所述特征中选取当前的划分特征,包括:
[0050]
从所述信息增益中选取最大的目标信息增益率;
[0051]
判断所述目标信息增益率是否大于预设阈值;
[0052]
若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
[0053]
在一些实施例中,所述应用清理方法还包括:
[0054]
当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[0055]
在一些实施例中,判断子节点是否满足预设分类终止条件,包括:
[0056]
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
[0057]
若是,则确定所述子节点满足预设分类终止条件。
[0058]
在一些实施例中,获取目标样本集内所述特征对于目标样本集分类的信息增益率,包括:
[0059]
获取所述特征对于目标样本集分类的信息增益;
[0060]
获取所述特征对于目标样本集分类的分裂信息;
[0061]
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[0062]
在一些实施例中,获取所述特征对于目标样本集分类的信息增益,包括:
[0063]
获取目标样本分类的经验熵;
[0064]
获取所述特征对于目标样本集分类结果的条件熵;
[0065]
根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益。
[0066]
在一些实施例中,根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率,包括:
[0067]
通过如下公式计算特征对于目标样本集分类的信息增益率:
[0068]
[0069]
其中,g R(D,A)为特征A对于样本集D分类的信息增益率,g(D,A)为特征A对于样本分类的信息增益,H A(D)为特征A的分裂信息;
[0070]
并且,g(D,A)可以通过如下公式计算得到:
[0071]
[0072]
其中,H(D)为样本集D分类的经验熵,H(D|A)为特征A对于样本集D分类的条件熵,pi为A特征取第i种取值的样本在样本集D中出现的概率,n和i均为大于零的正整数。
[0073]
本申请实施例提供一种应用清理方法,该应用清理方法的执行主体可以是本申请实施例提供的应用清理装置,或者集成了该应用清理装置的电子设备,其中该应用清理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
[0074]
请参阅图1,图1为本申请实施例提供的应用清理方法的应用场景示意图,以应用清理装置集成在电子设备中为例,电子设备可以采集应用的多维特征作为样本,并构建所述应用的样本集;根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型;根据预测时间采集所述应用对应的多维特征,得到预测样本;根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0075]
具体地,例如图1所示,以判断后台运行的应用程序a(如邮箱应用、游戏应用等)是否可以清理为例,可以在历史时间段内,采集应用a的多维特征(例如应用a在后台运行的时长、应用a运行的时间信息等)作为样本,构建应用a的样本集,根据特征(例如应用a在后台运行的时长、应用a运行的时间信息等)对于样本分类的信息增益率对样本集进行样本分类,以构建出应用a的决策树模型;根据预测时间(如t)采集应用对应的多维特征(例如在t时刻应用a在后台运行的时长、应用a运行的时间信息等)作为预测样本;根据预测样本和决策树模型预测应用a是否可清理。此外,当预测应用a可清理时,电子设备对应用a进行清理。
[0076]
请参阅图2,图2为本申请实施例提供的应用清理方法的流程示意图。本申请实施例提供的应用清理方法的具体流程可以如下:
[0077]
201、采集应用的多维特征作为样本,并构建应用的样本集。
[0078]
本实施例所提及的应用,可以是电子设备上安装的任何一个应用,例如办公应用、通信应用、游戏应用、购物应用等。其中,应用可以包括前台运行的应用,即前台应用,也可以包括后台运行的应用,即后台应用。
[0079]
应用的多维特征具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征息由多个特征构成。该多个特征可以包括应用自身相关的特征信息,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用 进入后台的方式,例如被主页键(home键)切换进入、被返回键切换进入,被其他应用切换进入等;应用的类型,包括一级(常用应用)、二级(其他应用)等。
[0080]
该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备的无线网络连接状态,电子设备是否在充电状态等。
[0081]
其中,应用的样本集可以包括多个样本,每个样本包括应用的多维特征。应用的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次、每半小时采集一次。可以理解的是,一次采集的应用的多维特征数据构成一个样本,多个样本,构成样本集。
[0082]
在构成样本集之后,可以对样本集中的每个样本进行标记,得到每个样本的样本标签,由于本实施要实现的是预测应用是否可以清理,因此,所标记的样本标签包括可清理和不可清理,也即样本类别包括可清理、不可清理。具体可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
[0083]
202、根据特征对于样本分类的信息增益率对样本集进行样本分类,以构建出应用的决策树模型。
[0084]
在一实施例中,为便于样本分类,可以将应用的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如针对电子设备的无线网连接状态这个特征信息,可以用数值1表示正常的状态,用数值0表示异常的状态(反之亦可);再例如,针对电子设备是否在充电状态这个特征信息,可以用数值1表示充电状态,用数值0表示未充电状态(反之亦可)。
[0085]
本申请实施例可以基于特征对于样本分类的信息增益率对样本集进行样本分类,以构建应用的决策树模型。比如,可以基于C4.5算法来构建决策树模型。
[0086]
其中,决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。
[0087]
其中,C4.5算法是决策树的一种,它是一系列用在机器学习和数据挖掘的分类问题中的算法,是由ID3改进后的一种重要算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
[0088]
ID3(Iterative Dichotomiser 3,迭代二叉树3代)是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
[0089]
本申请实施例中,信息增益率可以定义为:特征对于样本分类的信息增益、与特征对于样本分类的分裂信息之比。具体地的信息增益率获取方式参考下面的描述。
[0090]
信息增益是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。
[0091]
分裂信息用来衡量特征分裂数据(如样本集)的广度和均匀程度,该分裂信息可以为特征的熵。
[0092]
下面将详细介绍基于信息增益率对样本集进行分类的过程,比如,分类过程可以包括如下步骤:
[0093]
生成决策树的根节点,并将样本集作为根节点的节点信息;
[0094]
将根节点的样本集确定为当前待分类的目标样本集;
[0095]
获取目标样本集内特征对于目标样本集分类的信息增益率;
[0096]
根据信息增益率选取从特征中选取当前的划分特征;
[0097]
根据划分特征对样本集进行划分,得到若干子样本集;
[0098]
对子样本集中样本的划分特征进行去除,得到去除后子样本集
[0099]
生成当前节点的子节点,并将去除后子样本集作为子节点的节点信息;
[0100]
判断子节点是否满足预设分类终止条件;
[0101]
若否,则将目标样本集更新为去除后子样本集,并返回执行获取目标样本集内特征对于目标样本集分类的信息增益率;
[0102]
若是,则将子节点作为叶子节点,根据去除后子样本集中样本的类别设置叶子节点的输出,样本的类别包括可清理、或者不可清理。
[0103]
其中,划分特征为根据各特征对于样本集分类的信息增益率从特征中选取的特征,用于对样本集分类。其中,根据信息增益率选取划分特征的方式有多种,比如为了提升样本分类的精确性,可以选取最大信息增益率对应的特征为划分特征。
[0104]
其中,样本的类别可以包括可清理、不可清理两种类别,每个样本的类别可以用样本标记来表示,比如,当样本标记为数值时,数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
[0105]
当子节点满足预设分类终止条件时,可以将子节点作为叶子节点,即停止对该子节点的样本集分类,并且可以基于去除后子样本集中样本的类别设置该叶子节点的输出。基于样本的类别设置叶子节点的输出的方式有多种。比如,可以去除后样本集中样本数量最多的类别作为该叶子节点的输出。
[0106]
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量,也即步骤“判断子节点是否满足预设分类终止条件”可以包括:
[0107]
判断子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
[0108]
若是,则确定子节点满足预设分类终止条件;
[0109]
若否,则确定子节点不满预设分类终端终止条件。
[0110]
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出。
[0111]
在一实施例中,为了提升决策树模型的决策准确性,还可以设置一个增益率阈值;当最大的信息增益率大于该阈值时,才选取该信息增益率对应的特征为划分特征。也即,步骤“根据信息增益率选取从特征中选取当前的划分特征”可以包括:
[0112]
从信息增益率中选取最大的目标信息增益率;
[0113]
判断目标信息增益率是否大于预设阈值;
[0114]
若是,则选取目标信息增益率对应的特征作为当前的划分特征。
[0115]
在一实施例中,当目标信息增益率不大于预设阈值时,可以将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。,其中,样本类别包括可清理、或不可清理。
[0116]
其中,预设阈值可以根据实际需求设定,如0.9、0.8等等。
[0117]
例如,当特征1对于样本分类的信息增益率0.9为最大信息增益时,预设增益率阈值为0.8时,由于最大信息增益率大于预设阈值,此时,可以将特征1作为划分特征。
[0118]
又例如,当预设阈值为1时,那么最大信息增益率小于预设阈值,此时,可以将当前节点作为叶子节点,对样本集分析可知类别为“可清理”的样本数量最多,大于类别为“不可清理”的样本数量,此时,可以将“可清理”作为该叶子节点的输出。
[0119]
其中,根据划分特征对样本进行分类划分的方式有多种,比如,可以基于划分特征的特征值来对样本集进行划分。也即步骤“根据划分特征对样本集进行划分”可以包括:
[0120]
获取目标样本集中划分特征的特征值;
[0121]
根据特征值对目标样本集进行划分。
[0122]
比如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
[0123]
例如,对于样本集D{样本1、样本2……样本i……样本n},其中样本包括若干特征A。
[0124]
首先,对样本集中所有样本进行初始化,然后,生成一个根节点d,并将样本集D作为该根节点a的节点信息,如参考图3。
[0125]
计算各特征如特征A对于样本集分类的信息增益率g R(D,A)1、g R(D,A)2……g R(D,A)m;选取最大的信息增益率g R(D,A)max。
[0126]
当最大的信息增益率g R(D,A)max小于预设阈值ε时,当前的节点作为叶子节点,并选取样本数量最多的样本类别作为叶子节点的输出。
[0127]
当最大的信息增益率g R(D,A)max大于预设阈值ε时,可以选取信息增益g R(D,A)max对应的特征作为划分特征Ag,根据特征Ag对样本集D{样本1、样本2……样本i……样本n}进行划分,具体地,对Ag的每一个取值ai,依照Ag=ai将D划分为若干个非空集合Di,作为当前节点的子节点。如将样本集划分成两个子样本集D1{样本1、样本2……样本k}和D2{样本k+1……样本n}。
[0128]
将子样本集D1和D2中划分特征Ag去除即A-Ag。参考图3生成根节点d的子节点d1和d 2,并将子样本集D1作为子节点d1的节点信息、将子样本集D2作为子节点d2的节点信息。
[0129]
接着,对于每个子节点,对于每个子节点,以A-Ag作为特征,子节点的Di作为数据集,递归调用上述步,构建子树,直到满足预设分类终止条件为止。
[0130]
以子节点d1为例,判断子节点是否满足预设分类终止条件,若是,则将当前的子节点d1作为叶子节点,并根据子节点d1对应的子样本集中样本的类别设置该叶子节点输出。
[0131]
当子节点不满足预设分类终止条件时,采用上述基于信息增益分类的方式,继续对子节点对应的子样本集进行分类,如以子节点d2为例可以计算A2样本集中各特征相对于样本分类的信息增益率g R(D,A),选取最大的信息增益率g R(D,A)max,当最大的信息增益率g R(D,A)max大于预设阈值ε时,可以选取该信息增益率gR(D,A)对应的特征为划分特征Ag(如特征Ai+1),基于划分特征Ag将D2划分成若干子样本集,如可以将D2划分成子样本集D21、D22、D23,然后,将子样本集D21、D22、D23中的划分特征Ag去除,并生成当前节点d2的子节点d21、d22、d23,将去除划分特征Ag后的样本集D21、D22、D23分别作为子节点d21、d22、d23的节点信息。
[0132]
依次类推,利用上述的基于信息增益率分类的方式可以构成出如图4所示的决策树,该决策树的叶子节点的输出包括“可清理”、或者“不可清理”。
[0133]
在一实施例中,为了提升利用决策树进行预测的速度和效率,还可以在节点之间的路径上标记相应的划分特征的特征值。比如,在上述基于信息增益分类的过程中,可以在当前节点与其子节点路径上标记相应划分特征的特征值。
[0134]
例如,划分特征Ag的特征值包括:0、1时,可以在d2与d之间的路径上标记1,在a1与a之间的路径上标记0,依次类推,在每次划分后,便可以在当前节点与其子节点的路径上标记相应的划分特征值如0或1,便可以得到如图5所示的决策树。
[0135]
下面具体介绍信息增益率的获取方式:
[0136]
本申请实施例中,信息增益率可以定义为:特征对于样本分类的信息增益、与特征对于样本分类的分裂信息之比。
[0137]
信息增益是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。信息增益表示特征某个特征的使得类(清理与不清理)的信息的不确定性减少程度。
[0138]
分裂信息用来衡量特征分裂数据(如样本集)的广度和均匀程度,该分裂信息可以为特征的熵。
[0139]
其中,步骤“获取目标样本集内所述特征对于目标样本集分类的信息增益率”可以包括:
[0140]
获取所述特征对于目标样本集分类的信息增益;
[0141]
获取所述特征对于目标样本集分类的分裂信息;
[0142]
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[0143]
在一实施例中,可以基于样本分类的经验熵以及特征对于样本集分类结果的条件熵,获取特征对于样本集分类的信息增益。也即步骤“获取所述特征对于目标样本集分类的信息增益”可以包括:
[0144]
获取目标样本分类的经验熵;
[0145]
获取所述特征对于目标样本集分类结果的条件熵;
[0146]
根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益。其中,可以获取正样本在样本集中出现的第一概率、以及负样本在样本集中出现的第二概率,正样本为样本类别为可清理的样本,负样本为样本类别为不可清理的样本;根据第一概率和第二概率获取样本的经验熵。
[0147]
在一实施例中,特征对于所述目标样本集分类的信息增益可以为经验熵与条件熵之间的差值。例如,对于样本集D{样本1、样本2……样本i……样本n},样本包括多维特征,如特征A。特征A对于样本分类的信息增益率可以通过以下公式得到:
[0148]
[0149]
其中,g R(D,A)为特征A对于样本集D分类的信息增益率,g(D,A)为特征A对于样本分类的信息增益,HA(D)为特征A的分裂信息,即特征A的熵。
[0150]
其中,g R(D,A)可以通过以下公式得到:
[0151]
[0152]
如果样本类别为可清理的样本数量为j,不可清理的样本数量为n-j;此时,正样本在样本集D中的出现概率p1=j/n,负样本在样本集D中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(D):
[0153]
[0154]
在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。本实施中,样本分类的经验熵H(D)为:
[0155]
H(D)=p 1log p 1+p 2log p 2
[0156]
在一实施例中,可以根据特征A将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征A的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征Ai对于样本集分类结果的条件熵。
[0157]
例如,对于样本特征A,该样本特征A对于样本集D分类结果的条件熵可以通过以下公式计算得到:
[0158]
[0159]
其中,n为特征A的取值种数,即特征值类型数量。此时,pi为A特征值为第i种取值的样本在样本集D中出现的概率,Ai为A的第i种取值。(D|A=Ai)为子样本集Di分类的经验熵,该子样本集Di中样本的A特征值均为第i种取值。
[0160]
例如,以特征A的取值种数为3,即A1、A2、A3为例,此时,可以特征A将样本集D{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为A1的D1{样本1、样本2……样本d}、特征值为A2的D 2{样本d+1……样本e}、特征值为A3的D 3{样本e+1……样本n}。d、e均为正整数,且小于n。
[0161]
此时,特征A对于样本集D分类结果的条件熵为:
[0162]
H(D|A)=p1H(D|A=A1)+p2H(D|A=A2)+p3H(D|A=A3);
[0163]
其中,p1=D1/D,p2=D2/D,p2=D3/D;
[0164]
H(D|A1)为子样本集D1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
[0165]
在得到样本分类的经验熵H(D),以及特征A对于样本集D分类结果的条件熵H(D|A)后,便可以计算出特征A对于样本集D分类的信息增益,如通过以下公式计算得到:
[0166]
[0167]
也即特征A对于样本集D分类的信息增益为:经验熵H(D)与特征A对于样本集D分类结果的条件熵H(D|A)的差值。
[0168]
其中,特征对于样本集分类的分裂信息为特征的熵。可以基于特征的取值在目样本集中的样本分布概率得到。比如,H A(D)可以通过如下公式得到:
[0169]
为特征A的取值类别,或种数。
[0170]
其中,Di为样本集D特征A为第i种的样本集。
[0171]
203、根据预测时间采集应用的多维特征作为预测样本。
[0172]
其中,预测时间可以根据需求设定,如可以为当前时间等。
[0173]
比如,可以在预测时间点采集应用的多维特征作为预测样本。
[0174]
本申请实施例中,步骤201和203中采集的多维特征是相同特征,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式。
[0175]
204、根据预测样本和决策树模型预测应用是否可清理。
[0176]
具体地,根据预测样本和决策树模型获取相应的输出结果,根据输出结果确定应用是否可清理。其中,输出结果包括可清理、或不可清理。
[0177]
比如,可以根据预测样本的特征和决策树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于决策树来确定应用是否可清理。
[0178]
例如,采集当前时间点应用的多维特征后,可以在图5所示的决策树中按照决策树的分支条件查找相应的叶子节点为an1,叶子节点an1的输出为可清理,此时,便确定应用是可清理的。
[0179]
由上可知,本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本分类的信息增益率对样本集进行样本分类,以构建出应用的决策树模型,决策树模型的输出包括可清理、或者不可清理;根据预测时间采集应用对应的多维特征作为预测样本;根据预测样本和决策树模型预测应用是否可清理,清理可以清理的应用,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
[0180]
进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
[0181]
进一步地,基于决策树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。
[0182]
下面将在上述实施例描述的方法基础上,对本申请的清理方法做进一步介绍。参考图6,该应用清理方法可以包括:
[0183]
301、采集应用的多维特征作为样本,并构建应用的样本集。
[0184]
应用的多维特征信息具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征信息由多个特征信息构成。该多个特征信息可以包括应用自身相关的特征信息,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式,例如被主页键(home键)切换进入、被返回键切换进入,被其他应用切换进入等;应用的类型,包括一级(常用应用)、二级(其他应用)等。该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备的无线网络连接状态,电子设备是否在充电状态等。
[0185]
应用的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次,每半小时采集一次。可以理解的是,一次采集应用的多维特征数据构成一个样本,多个样本,构成样本集。
[0186]
一个具体的样本可如下表1所示,包括多个维度的特征信息,需要说明的是,表1所示的特征信息仅为举例,实际中,一个样本所包含的特征信息的数量,可以多于比表1所示信息的数量,也可以少于表1所示信息的数量,所取的具体特征信息也可以与表1所示不同,此处不作具体限定。
[0187]
[表0001]
维度 特征信息
1 当前时间段
2 当前日期类别(工作日、休息日)
3 上一个情景应用名字
4 上上个情景应用名字
5 当前无线网状态,如wifi连接状态
6 无线网连接时,无线网的标识信息,如wifi的SSID/BSSID
7 应用在后台的时长
8 电子设备的屏幕的灭屏时间;如应用在后台运行期间灭屏时长
9 电子设备的当前电量
10 当前充电状态
11 当前耳机的插拔状态
12 应用的类别
13 应用被切换的方式,如切换到后台的方式

[0188]
表1
[0189]
302、对样本集中的样本进行标记,得到每个样本的样本标签。
[0190]
由于本实施要实现的是预测应用是否可以清理,因此,所标记的样本标签包括可清理和不可清理。该样本的样本标签表征该样本的样本类别。此时,样本类别可以包括可清理、不可清理。
[0191]
此外,还可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
[0192]
303、生成决策树模型的根节点,并将样本集作为根节点的节点信息。
[0193]
比如,参考图3,对于样本集A{样本1、样本2……样本i……样本n},可以先生成决策树的根节点a,并将样本集A作为该根节点a的节点信息。
[0194]
304、确定样本集为当前待分类的目标样本集。
[0195]
也即确定根节点的样本集作为当前待分类的目标样本集。
[0196]
305、获取目标样本集内各特征对于样本集分类的信息增益率,并确定最大的信息增益率。
[0197]
比如,对于样本集D,可以计算各特征对于样本集分类的信息增益率g R(D,A)1、g R(D,A)2……g R(D,A)m;选取最大的信息增益率g R(D,A)max,如g R(D,A)i为最大的信息增益率。
[0198]
其中,特征对于样本集分类的信息增益率,可以采用如下方式获取:
[0199]
获取样本分类的经验熵;获取特征对于样本集分类结果的条件熵;根据条件熵和经验熵,获取特征对于样本集分类的信息增益;
[0200]
获取特征对于样本集分类的分裂信息,即特征对于样本分类的熵;
[0201]
获取信息增益与熵的比值,得到特征对于样本分类的信息增益率。
[0202]
例如,对于样本集D{样本1、样本2……样本i……样本n},样本包括多维特征,如特征A。特征A对于样本分类的信息增益率可以通过以下公式得到:
[0203]
[0204]
其中,g(D,A)为特征A对于样本分类的信息增益,H A(D)为特征A的分裂信息,即特征A的熵。
[0205]
其中,g(D,A)可以通过以下公式得到:
[0206]
[0207]
H(D)为样本分类的经验熵,H(D|A)为特征A对于样本分类的条件熵。
[0208]
如果样本类别为可清理的样本数量为j,不可清理的样本数量为n-j;此时,正样本在样本集Y中的出现概率p1=j/n,负样本在样本集D中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(D):
[0209]
[0210]
在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。本实施中,样本分类的经验熵H(D)为:
[0211]
H(D)=p 1log p 1+p 2log p 2
[0212]
在一实施例中,可以根据特征A将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征A的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征Ai对于样本集分类结果的条件熵。
[0213]
例如,对于样本特征A,该样本特征A对于样本集D分类结果的条件熵可以通过以下公式计算得到:
[0214]
[0215]
其中,n为特征A的取值种数,即特征值类型数量。此时,pi为A特征值为第i种取值的样本在样本集D中出现的概率,Ai为A的第i种取值。(D|A=Ai)为子样本集Di分类的经验熵,该子样本集Di中样本的A特征值均为第i种取值。
[0216]
例如,以特征A的取值种数为3,即A1、A2、A3为例,此时,可以特征A将样本集D{样本1、 样本2……样本i……样本n}划分成三个子样本集,特征值为A1的D1{样本1、样本2……样本d}、特征值为A2的D 2{样本d+1……样本e}、特征值为A3的D 3{样本e+1……样本n}。d、e均为正整数,且小于n。
[0217]
此时,特征A对于样本集D分类结果的条件熵为:
[0218]
H(D|A)=p1H(D|A=A1)+p2H(D|A=A2)+p3H(D|A=A3);
[0219]
其中,p1=D1/D,p2=D2/D,p2=D3/D;
[0220]
H(D|A1)为子样本集D1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
[0221]
在得到样本分类的经验熵H(D),以及特征A对于样本集D分类结果的条件熵H(D|A)后,便可以计算出特征A对于样本集D分类的信息增益,如通过以下公式计算得到:
[0222]
[0223]
也即特征A对于样本集D分类的信息增益为:经验熵H(D)与特征A对于样本集D分类结果的条件熵H(D|A)的差值。
[0224]
其中,特征对于样本集分类的分裂信息为特征的熵。可以基于特征的取值在目样本集中的样本分布概率得到。比如,H A(D)可以通过如下公式得到:
[0225]
为特征A的取值类别,或种数。
[0226]
其中,Di为样本集D特征A为第i种的样本集。
[0227]
306、判断最大的信息增益率是否大于预设阈值,若是,则执行步骤307,若否,则执行步骤313。
[0228]
例如,可以判断最大的信息增益g R(D,A)max是否大于预设的阈值ε,该阈值ε可以根据实际需求设定。
[0229]
307、选取最大的信息增益率对应的特征作为划分特征,并根据该划分特征的特征值对样本集进行划分,得到若干子样本集。
[0230]
比如,当最大的信息增益g R(D,A)max对应的特征为特征Ag时,可以选取特征Ag为划分特征。
[0231]
具体地,可以根据划分特征的特征值种数将样本集划分成若干子样本集,子样本集的数量与特征值种数相同。例如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
[0232]
308、将子样本集中样本的划分特征去除,得到去除后子样本集。
[0233]
比如,划分特征i的取值有两种时,可以将样本集D划分成D1{样本1、样本2……样本k}和D 2{样本k+1……样本n}。然后,可以将子样本集D 1和D 2中的划分特征Ag去除,即A-Ag。
[0234]
309、生成当前节点的子节点,并将去除后子样本集作为相应子节点的节点信息。
[0235]
其中,一个子样本集对应一个子节点。例如,考图3生成根节点d的子节点d1和d2,并将子样本集D1作为子节点d1的节点信息、将子样本集D2作为子节点d2的节点信息。
[0236]
在一实施例中,还可以将子节点对应的划分特征值设置子节点与当前节点的路径上,便于后续进行应用预测,参考图5。
[0237]
310、判断子节点的子样本集是否满足预设分类终止条件,若是,则执行步骤311,若否,则执行步骤312。
[0238]
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合 中样本的类别数量为与预设数量。
[0239]
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
[0240]
以子节点d1为例,判断子节点是否满足预设分类终止条件,若是,则将当前的子节点d1作为叶子节点,并根据子节点d1对应的子样本集中样本的类别设置该叶子节点输出。
[0241]
311、将目标样本集更新为子节点的子样本集,并返回执行步骤305。
[0242]
当子节点不满足预设分类终止条件时,采用上述基于信息增益分类的方式,继续对子节点对应的子样本集进行分类,如以子节点d2为例可以计算A2样本集中各特征相对于样本分类的信息增益率g R(D,A),选取最大的信息增益率g R(D,A)max,当最大的信息增益率g R(D,A)max大于预设阈值ε时,可以选取该信息增益率g R(D,A)对应的特征为划分特征Ag(如特征Ai+1),基于划分特征Ag将D2划分成若干子样本集,如可以将D2划分成子样本集D21、D22、D23,然后,将子样本集D21、D22、D23中的划分特征Ag去除,并生成当前节点d2的子节点d 21、d22、d23,将去除划分特征Ag后的样本集D21、D22、D23分别作为子节点d21、d22、d23的节点信息。
[0243]
312、将该子节点作为叶子节点,并根据子节点的子样本集中样本类别设置该叶子节点的输出。
[0244]
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
[0245]
此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出
[0246]
313、将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。
[0247]
其中,样本类别包括可清理、不可清理。
[0248]
例如,在子节点d1的子样本集D1分类时,如果最大信息增益小与预设阈值,此时,可以将子样本集D1中样本数量最多的样本类别作为该叶子节点的输出。如“不可清理”的样本数量最多,那么可以将“不可清理”作为叶子节点a1的输出。
[0249]
314、在构建完决策树模型后,获取需要预测应用是否可清理的时间,根据该时间采集应用的多维特征作为预测样本。
[0250]
其中,需要预测应用是否可清理的时间可以包括当前时间,或者其他时间。
[0251]
315、根据预测样本和决策树模型预测应用是否可清理。
[0252]
比如,可以根据预测样本的特征和决策树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于决策树来确定应用是否可清理。
[0253]
例如,采集当前时间点应用的多维特征后,可以在图5所示的决策树中按照决策树的分支条件查找相应的叶子节点为an2,叶子节点an2的输出为不可清理,此时,便确定应用是不可清理的。
[0254]
在一个具体的例子中,可以利用预先构建的决策树模型预测后台运行的多个应用是否可清理,如表2所示,则确定可以清理后台运行的应用App1和应用App3,而保持应用App2在后台运行的状态不变。
[0255]
[表0002]
应用 预测结果
应用App1 可清理
应用App2 不可清理
应用App3 可清理

[0256]
表2
[0257]
由上可知,本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本分类的信息增益率对样本集进行样本分类,以构建出应用的决策树模型,决策树模型的输出包括可清理、或者不可清理;根据预测时间采集应用对应的多维特征作为预测样本;根据预测样本和决策树模型预测应用是否可清理,便清理可以清理的应用,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
[0258]
进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
[0259]
进一步地,基于决策树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。
[0260]
本申请实施例还提供了一种应用清理装置,包括:
[0261]
第一采集单元,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
[0262]
分类单元,用于根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
[0263]
第二采集单元,用于根据预测时间采集所述应用的多维特征作为预测样本;
[0264]
预测单元,用于根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0265]
在一些实施例中,所述分类单元包括:
[0266]
第一节点生成子单元,用于生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
[0267]
增益率获取子单元,用于获取目标样本集内所述特征对于目标样本集分类的信息增益率;
[0268]
特征确定子单元,用于根据所述信息增益率选取从所述特征中选取当前的划分特征;
[0269]
分类子单元,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集;
[0270]
第二节点生成子单元,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
[0271]
判断子单元,用于判断子节点是否满足预设分类终止条件,将所述目标样本集更新为所述去除后子样本集,并触发所述增益率获取子单元执行获取目标样本集内所述特征对于样本集分类的信息增益率的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[0272]
在一些实施例中,所述分类子单元,用于:
[0273]
获取所述样本集中划分特征的特征值;
[0274]
根据所述特征值对所述样本集进行划分。
[0275]
在一些实施例中,所述特征确定子单元,用于:
[0276]
从所述信息增益率中选取最大的目标信息增益率;
[0277]
判断所述目标信息增益率是否大于预设阈值;
[0278]
若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
[0279]
在一些实施例中,所述增益率获取子单元,用于:
[0280]
获取所述特征对于目标样本集分类的信息增益;
[0281]
获取所述特征对于目标样本集分类的分裂信息;
[0282]
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[0283]
在一些实施例中,所述特征确定子单元,还用于当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[0284]
在一些实施例中,所述判断子单元,用于:
[0285]
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
[0286]
若是,则确定所述子节点满足预设分类终止条件。
[0287]
在一些实施例中,所述增益率获取子单元,用于:
[0288]
获取目标样本分类的经验熵;
[0289]
获取所述特征对于目标样本集分类结果的条件熵;
[0290]
根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益。
[0291]
在一些实施例中,所述增益率获取子单元,用于:
[0292]
通过如下公式计算特征对于目标样本集分类的信息增益率:
[0293]
[0294]
其中,g R(D,A)为特征A对于样本集D分类的信息增益率,g(D,A)为特征A对于样本分类的信息增益,HA(D)为特征A的分裂信息;
[0295]
并且,g(D,A)可以通过如下公式计算得到:
[0296]
[0297]
其中,H(D)为样本集D分类的经验熵,H(D|A)为特征A对于样本集D分类的条件熵,pi为A特征取第i种取值的样本在样本集D中出现的概率,n和i均为大于零的正整数。
[0298]
在一实施例中还提供了一种应用清理装置。请参阅图7,图7为本申请实施例提供的应用清理装置的结构示意图。其中该应用清理装置应用于电子设备,该应用清理装置包括第一采集单元401、分类单元402、第二采集单元403、和预测单元404,如下:
[0299]
第一采集单元401,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
[0300]
分类单元402,用于根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
[0301]
第二采集单元403,用于根据预测时间采集所述应用的多维特征作为预测样本;
[0302]
预测单元404,用于根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0303]
在一实施例中,参考图8,分类单元402,可以包括:
[0304]
第一节点生成子单元4021,用于生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
[0305]
增益率获取子单元4022,用于获取目标样本集内所述特征对于目标样本集分类的信息增益率;
[0306]
特征确定子单元4023,用于获取目标样本集内所述特征对于目标样本集分类的信息增益率;
[0307]
分类子单元4024,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集;
[0308]
第二节点生成子单元4025,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
[0309]
判断子单元4026,用于判断子节点是否满足预设分类终止条件,将所述目标样本集更新为所述去除后子样本集,并触发所述增益率获取子单元4022执行获取目标样本集内所述特征对于样本集分类的信息增益率的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[0310]
其中,分类子单元4024,可以用于获取所述样本集中划分特征的特征值;
[0311]
根据所述特征值对所述样本集进行划分。相同的样本划分到相同的子样本集。
[0312]
其中,特征确定子单元4023,可以用于:
[0313]
从所述信息增益中选取最大的目标信息增益;
[0314]
判断所述目标信息增益是否大于预设阈值;
[0315]
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
[0316]
在一实施例中,增益率获取子单元4022,可以用于:
[0317]
获取所述特征对于目标样本集分类的信息增益;
[0318]
获取所述特征对于目标样本集分类的分裂信息;
[0319]
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[0320]
比如,增益获取子单元4022,可以用于:
[0321]
获取目标样本分类的经验熵;
[0322]
获取所述特征对于目标样本集分类结果的条件熵;
[0323]
根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益率。
[0324]
在一实施例中,判断子单元4025,可以用于判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
[0325]
若是,则确定所述子节点满足预设分类终止条件。
[0326]
在一实施例中,特征确定子单元4023,还可以用于当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[0327]
其中,应用清理装置中各单元执行的步骤可以参考上述方法实施例描述的方法步骤。该应用清理装置可以集成在电子设备中,如手机、平板电脑等。
[0328]
具体实施时,以上各个单元可以作为独立的实体实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单位的具体实施可参见前面的实施例,在此不再赘述。
[0329]
本文所使用的术语“模块”“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
[0330]
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
[0331]
由上可知,本实施例应用清理装置可以由第一采集单元401采集应用的多维特征作为样本,并构建所述应用的样本集;由分类单元402根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,决策树模型的输出包括可清理、或者不可清理;由第二采集单元403根据预测时间采集所述应用对应的多维特征作为预测样本;由预测单元404根据所述预测样本和所述决策树模型预测所述应用是否可清理,清理可以清理的应用,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
[0332]
本申请实施例还提供一种电子设备。请参阅图9,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
[0333]
所述处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据,从而对电子设备500进行整体监控。
[0334]
所述存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
[0335]
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
[0336]
采集应用的多维特征作为样本,并构建所述应用的样本集;
[0337]
根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树 模型,所述决策树模型的输出包括可清理、或者不可清理;
[0338]
根据预测时间采集所述应用的多维特征作为预测样本;
[0339]
根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0340]
在某些实施方式中,在根据所述特征对于样本分类的信息增益对所述样本集进行样本分类,以构建出所述应用的决策树模型时,处理器501可以具体执行以下步骤:
[0341]
生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;
[0342]
将所述根节点的样本集确定为当前待分类的目标样本集;
[0343]
获取目标样本集内所述特征对于目标样本集分类的信息增益率;
[0344]
根据所述信息增益率选取从所述特征中选取当前的划分特征;
[0345]
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
[0346]
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
[0347]
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
[0348]
判断子节点是否满足预设分类终止条件;
[0349]
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于目标样本集分类的信息增益率的步骤;
[0350]
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[0351]
在某些实施方式中,在根据所述划分特征对所述目标样本集进行划分时,处理器501可以具体执行以下步骤:
[0352]
获取所述目标样本集中划分特征的特征值;
[0353]
根据所述特征值对所述目标样本集进行划分。
[0354]
在某些实施方式中,在根据所述信息增益率选取从所述特征中选取当前的划分特征时,处理器501可以具体执行以下步骤:
[0355]
从所述信息增益中选取最大的目标信息增益率;
[0356]
判断所述目标信息增益率是否大于预设阈值;
[0357]
若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
[0358]
在某些实施方式中,处理器501还可以具体执行以下步骤:
[0359]
当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[0360]
在某些实施方式中,在获取目标样本集内所述特征对于样本集分类的信息增益时,处理器501可以具体执行以下步骤:
[0361]
获取所述特征对于目标样本集分类的信息增益;
[0362]
获取所述特征对于目标样本集分类的分裂信息;
[0363]
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。由上述可知,本申请实施例的电子设备,采集应用的多维特征作为样本,并构建所述应用的样本集;根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,决策树模型的输出包括可清理、或者不可清理;根据预测时间采集所述应用对应的多维特征作为预测样本;根据所述预测样本和所述决策树模型预测所述应用是否可清理,便清理可以清理的应用,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
[0364]
请一并参阅图10,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
[0365]
所述显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在 某些实施方式中,可以采用液晶显示器(Liquid Crystal Display,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
[0366]
所述射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
[0367]
所述音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
[0368]
所述电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0369]
尽管图10中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0370]
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的应用清理方法,比如:采集应用的多维特征作为样本,并构建所述应用的样本集;根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,决策树模型的输出包括可清理、或者不可清理;根据预测时间采集所述应用对应的多维特征作为预测样本;根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[0371]
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
[0372]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0373]
需要说明的是,对本申请实施例的应用清理方法而言,本领域普通测试人员可以理解实现本申请实施例的应用清理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用清理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
[0374]
对本申请实施例的应用清理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
[0375]
以上对本申请实施例所提供的一种应用清理方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

权利要求书

[权利要求 1]
一种应用清理方法,其中,包括: 采集应用的多维特征作为样本,并构建所述应用的样本集; 根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理; 根据预测时间采集所述应用的多维特征作为预测样本; 根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[权利要求 2]
如权利要求1所述的应用清理方法,其中,根据所述特征对于样本分类的信息增益对所述样本集进行样本分类,以构建出所述应用的决策树模型,包括: 生成决策树的根节点,并将所述样本集作为所述根节点的节点信息; 将所述根节点的样本集确定为当前待分类的目标样本集; 获取目标样本集内所述特征对于目标样本集分类的信息增益率; 根据所述信息增益率选取从所述特征中选取当前的划分特征; 根据所述划分特征对所述样本集进行划分,得到若干子样本集; 对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集; 生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息; 判断子节点是否满足预设分类终止条件; 若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于目标样本集分类的信息增益率的步骤; 若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[权利要求 3]
如权利要求2所述的应用清理方法,其中,根据所述划分特征对所述目标样本集进行划分,包括: 获取所述目标样本集中划分特征的特征值; 根据所述特征值对所述目标样本集进行划分。
[权利要求 4]
如权利要求2所述的应用清理方法,其中,根据所述信息增益率选取从所述特征中选取当前的划分特征,包括: 从所述信息增益中选取最大的目标信息增益率; 判断所述目标信息增益率是否大于预设阈值; 若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
[权利要求 5]
如权利要求4所述的应用清理方法,其中,所述应用清理方法还包括: 当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[权利要求 6]
如权利要求2所述的应用清理方法,其中,判断子节点是否满足预设分类终止条件,包括: 判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量; 若是,则确定所述子节点满足预设分类终止条件。
[权利要求 7]
如权利要求2所述的应用清理方法,其中,获取目标样本集内所述特征对于目标样本集分类的信息增益率,包括: 获取所述特征对于目标样本集分类的信息增益; 获取所述特征对于目标样本集分类的分裂信息; 根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[权利要求 8]
如权利要求7所述的应用清理方法,其中,获取所述特征对于目标样本集分类的信息增益,包括: 获取目标样本分类的经验熵; 获取所述特征对于目标样本集分类结果的条件熵; 根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益。
[权利要求 9]
如权利要求7所述的应用清理方法,其中,根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率,包括: 通过如下公式计算特征对于目标样本集分类的信息增益率: 其中,g R(D,A)为特征A对于样本集D分类的信息增益率,g(D,A)为特征A对于样本分类的信息增益,HA(D)为特征A的分裂信息; 并且,g(D,A)可以通过如下公式计算得到: 其中,H(D)为样本集D分类的经验熵,H(D|A)为特征A对于样本集D分类的条件熵,pi为A特征取第i种取值的样本在样本集D中出现的概率,n和i均为大于零的正整数。
[权利要求 10]
一种应用清理装置,其中,包括: 第一采集单元,用于采集应用的多维特征作为样本,并构建所述应用的样本集; 分类单元,用于根据所述特征对于样本分类的信息增益率对所述样本集进行样本分类,以构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理; 第二采集单元,用于根据预测时间采集所述应用的多维特征作为预测样本; 预测单元,用于根据所述预测样本和所述决策树模型预测所述应用是否可清理。
[权利要求 11]
如权利要求10所述的应用清理装置,其中,所述分类单元包括: 第一节点生成子单元,用于生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集; 增益率获取子单元,用于获取目标样本集内所述特征对于目标样本集分类的信息增益率; 特征确定子单元,用于根据所述信息增益率选取从所述特征中选取当前的划分特征; 分类子单元,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集; 第二节点生成子单元,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息; 判断子单元,用于判断子节点是否满足预设分类终止条件,将所述目标样本集更新为所述去除后子样本集,并触发所述增益率获取子单元执行获取目标样本集内所述特征对于样本集分类的信息增益率的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
[权利要求 12]
如权利要求11所述的应用清理装置,其中,所述分类子单元,用于: 获取所述样本集中划分特征的特征值; 根据所述特征值对所述样本集进行划分。
[权利要求 13]
如权利要求11所述的应用清理装置,其中,所述特征确定子单元,用于: 从所述信息增益率中选取最大的目标信息增益率; 判断所述目标信息增益率是否大于预设阈值; 若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
[权利要求 14]
如权利要求11所述的应用清理装置,其中,所述增益率获取子单元,用于: 获取所述特征对于目标样本集分类的信息增益; 获取所述特征对于目标样本集分类的分裂信息; 根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
[权利要求 15]
如权利要求14所述的应用清理装置,其中,所述特征确定子单元,还用于当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
[权利要求 16]
如权利要求11所述的应用清理装置,其中,所述判断子单元,用于: 判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量; 若是,则确定所述子节点满足预设分类终止条件。
[权利要求 17]
如权利要求14所述的应用清理装置,其中,所述增益率获取子单元,用于: 获取目标样本分类的经验熵; 获取所述特征对于目标样本集分类结果的条件熵; 根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益。
[权利要求 18]
如权利要求14所述的应用清理装置,其中,所述增益率获取子单元,用于: 通过如下公式计算特征对于目标样本集分类的信息增益率: 其中,g R(D,A)为特征A对于样本集D分类的信息增益率,g(D,A)为特征A对于样本分类的信息增益,HA(D)为特征A的分裂信息; 并且,g(D,A)可以通过如下公式计算得到: 其中,H(D)为样本集D分类的经验熵,H(D|A)为特征A对于样本集D分类的条件熵,pi为A特征取第i种取值的样本在样本集D中出现的概率,n和i均为大于零的正整数。
[权利要求 19]
一种存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至9任一项所述的应用清理方法。
[权利要求 20]
一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其中,所述处理器通过调用所述计算机程序,用于执行如权利要求1至9任一项所述的应用清理方法。

附图

[ 图 1]  
[ 图 2]  
[ 图 3]  
[ 图 4]  
[ 图 5]  
[ 图 6]  
[ 图 7]  
[ 图 8]  
[ 图 9]  
[ 图 10]