Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. CN109710837 - A word2vec-based user missing portrait supplementing method and related equipment

Note: Texte fondé sur des processus automatiques de reconnaissance optique de caractères. Seule la version PDF a une valeur juridique

[ ZH ]

权利要求书

1.一种基于word2vec的用户缺失画像的补充方法,其特征在于,包括:
调取预先录入的第一用户画像,所述第一用户画像由第一预设数量的第一用户画像值按照预设排列顺序组成,所述第一用户画像包括多个第一缺失画像值和多个第一已知画像值;
将各所述第一用户画像值输入预设对应表中筛选得到对应的第一词汇,并将各所述第一词汇按照所述预设排列顺序构建语料库,所述语料库包括各所述第一缺失画像值对应的缺失词汇和各所述第一已知画像值对应的第一已知词汇,所述预设对应表由预先构建的多组用户画像值对应词汇组成;
将所述语料库输入预先基于word2vec构建的预测模型中进行计算,输出各所述缺失词汇分别对应的预测词汇;
将各所述预测词汇输入所述预设对应表中筛选得到对应的第一预测画像值;
将各所述第一预测画像值分别替换所述第一用户画像中对应的所述第一缺失画像值。

2.根据权利要求1所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述将所述语料库输入基于word2vec构建的预测模型中进行计算,输出各所述缺失词汇分别对应的预测词汇的步骤,包括:
将所述语料库输入预先基于word2vec构建的所述预测模型;
利用所述预测模型,从所述语料库中按照所述预设排列顺序筛选各所述缺失词汇相邻出现的第二预设数量的所述第一已知词汇,并根据各所述已知词汇获得至少一个初始预测词汇以及各初始预测词汇分别对应的出现概率;
分别比对各所述出现概率,选择所述出现概率最大的所述初始预测词汇作为所述预测词汇。

3.根据权利要求1所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述将所述语料库输入预先基于word2vec构建的预测模型中进行计算,输出各所述缺失词汇分别对应的预测词汇的步骤之前,包括:
从原始画像表中筛选画像饱和度大于阈值的第三预设数量的第二用户画像,所述原始画像表由开发人员根据预先收集的多个原始用户画像构建,所述第二用户画像由所述第一预设数量的第二用户画像值按照所述预设排列顺序组成;
将各所述第二用户画像值输入所述预设对应表中筛选得到对应的第二词汇;
将各所述第二词汇按照预设规则构建训练样本,同时分别给予各所述第二词汇对应的初始向量;
识别各所述初始向量,并使用霍夫曼树分类方法训练所述训练样本得到初始预测模型;
判断所述初始预测模型当前的第一准确率是否小于预设准确率;
若小于预设准确率,则扩大所述训练样本重新训练所述初始预测模型,得到二次训练模型;
判断所述二次训练模型当前的第二准确率是否满足预设要求,所述预设要求为所述第二准确率等于所述预设准确率或所述第二准确率与所述第一准确率之间的差值是否小于预设差值;
若满足预设要求,则将所述二次训练模型设定为所述预测模型。

4.根据权利要求3所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述将各所述第二词汇按照预设规则构建训练样本的步骤,包括:
将各所述第二词汇分别设为输出值;
按照所述预设排列顺序,分别选择所述输出值相邻出现的第四预设数量的所述第二词汇作为输入值;
将各所述输入值分别与各输出值对应关联形成多组训练值,并汇总各组所述训练值形成所述训练样本。

5.根据权利要求4所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述识别所述初始向量,并使用霍夫曼树分类方法训练所述训练样本得得到初始预测模型的步骤,包括:
根据所述初始向量与所述第二词汇的对应关系,识别所述训练样本中的各个所述训练值;
获取相同输入值的出现次数,以及与所述相同输入值对应的各个所述输出值分别对应的出现次数;
根据所述相同输入值的出现次数和各所述输出值对应的出现次数,计算得到各所述输出值的出现概率;
根据所述输入值、各所述输出值以及各所述输出值对应的所述出现概率,构建所述预测模型。

6.根据权利要求3所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述判断所述初始预测模型当前的第一准确率是否小于预设准确率的步骤,包括:
获取画像饱和度为100%的多个第三用户画像,所述第三用户画像包括第三已知画像值;
分别从各所述第三用户画像中选择第五预设数量的所述第三阈值画像值作为测试画像值;
将各所述测试画像值从对应的所述第三用户画像中分别剔除,得到剔除后的各所述第三用户画像对应的第四用户画像;
使用各所述第四用户画像构建测试样本,并将所述测试样本输入所述初始预测模型,得到预测画像值;
计算所述预测画像值与对应的所述测试画像值之间的相同率,得到所述第一准确率;
调用所述预设准确率与所述第一准确率进行比较;
若所述第一准确率小于所述预设准确率,则判定所述初始预测模型当前的第一准确率小于预设准确率;
若所述第一准确率大于所述预设准确率,则判定所述初始预测模型当前的第一准确率大于预设准确率。

7.根据权利要求6所述的基于word2vec的用户缺失画像的补充方法,其特征在于,所述扩大所述训练样本重新训练所述初始预测模型,得到二次训练模型的步骤,包括:
筛选测试所述初始预测模型过程中与预测画像值不同的所有测试画像值作为扩大输出值;
按照所述预设排列顺序分别选择所述扩大输出值对应的多个扩大输入值;
分别将各所述扩大输入值与所述扩大输出值对应关联后加入所述训练样本中,扩大所述训练样本;
使用扩大后的所述训练样本重新训练所述初始预测模型,得到所述二次训练模型。

8.一种基于word2vec的用户缺失画像的补充装置,其特征在于,包括:
调取模块,用于调取预先录入的第一用户画像;
构建模块,用于将各所述第一用户画像值输入预设对应表中筛选得到对应的第一词汇,并将各所述第一词汇按照所述预设排列顺序构建语料库;
计算模块,用于将所述语料库输入预先基于word2vec构建的预测模型中进行计算,输出各所述缺失词汇分别对应的预测词汇;
筛选模块,用于将各所述预测词汇输入所述对应表中筛选得到对应的第一预测画像值;
替换模块,用于将各所述第一预测画像值分别替换所述第一用户画像中对应的所述第一缺失画像值。

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。