Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020220757 - METHOD AND DEVICE FOR PUSHING OBJECT TO USER BASED ON REINFORCEMENT LEARNING MODEL

Publication Number WO/2020/220757
Publication Date 05.11.2020
International Application No. PCT/CN2020/071699
International Filing Date 13.01.2020
IPC
G06F 16/9535 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
90Details of database functions independent of the retrieved data types
95Retrieval from the web
953Querying, e.g. by the use of web search engines
9535Search customisation based on user profiles and personalisation
CPC
G06F 16/9535
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
90Details of database functions independent of the retrieved data types
95Retrieval from the web
953Querying, e.g. by the use of web search engines
9535Search customisation based on user profiles and personalisation
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
Applicants
  • 阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED
Inventors
  • 陈岑 CHEN, Cen
  • 胡旭 HU, Xu
  • 傅驰林 FU, Chilin
  • 张晓露 ZHANG, Xiaolu
Agents
  • 北京博思佳知识产权代理有限公司 BEIJING BESTIPR INTELLECTUAL PROPERTY LAW CORPORATION
Priority Data
201910355868.629.04.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) METHOD AND DEVICE FOR PUSHING OBJECT TO USER BASED ON REINFORCEMENT LEARNING MODEL
(FR) PROCÉDÉ ET DISPOSITIF POUR POUSSER UN OBJET VERS UN UTILISATEUR SUR LA BASE D'UN MODÈLE D'APPRENTISSAGE DE RENFORCEMENT
(ZH) 基于强化学习模型向用户推送对象的方法和装置
Abstract
(EN)
A method and device for determining a push object list for a user based on a reinforcement learning model. The method comprises: for each group of object lists, obtaining the ith state feature vector (S202); inputting the ith state feature vector into the reinforcement learning model to enable the reinforcement learning model to output a weight vector corresponding to the ith state feature vector (S204); obtaining sorting feature vectors of objects in a candidate object set corresponding to the group of object lists (S206); calculating scores of the objects in the candidate object set on the basis of a point product of the sorting feature vectors of the objects in the candidate object set and the weight vector (S208); and for the M groups of object lists, determining updated M groups of object lists on the basis of the scores of the objects in M candidate object sets corresponding to the M groups of object lists (S210), wherein each group of object lists in the updated M groups of object lists comprises i objects.
(FR)
La présente invention concerne un procédé et un dispositif permettant de déterminer une liste d'objets de poussée pour un utilisateur sur la base d'un modèle d'apprentissage de renforcement. Le procédé comprend les étapes consistant à : pour chaque groupe de listes d'objets, obtenir le ième vecteur de caractéristique d'état (S202) ; entrer le ième vecteur de caractéristique d'état dans le modèle d'apprentissage de renforcement pour permettre au modèle d'apprentissage de renforcement de délivrer un vecteur de poids correspondant au ième vecteur de caractéristique d'état (S204) ; obtenir des vecteurs de caractéristiques de tri d'objets dans un ensemble d'objets candidats correspondant au groupe de listes d'objets (S206) ; calculer des scores des objets dans l'ensemble d'objets candidats sur la base d'un produit de points des vecteurs de caractéristiques de tri des objets dans l'ensemble d'objets candidats et du vecteur de poids (S208) ; et pour les M groupes de listes d'objets, déterminer les M groupes mis à jour de listes d'objets sur la base des scores des objets dans M ensembles d'objets candidats correspondant aux M groupes de listes d'objets (S210), chaque groupe de listes d'objets dans les M groupes mis à jour de listes d'objets comprenant i objets.
(ZH)
一种基于强化学习模型确定针对用户的推送对象列表的方法和装置,所述方法包括:对于每组对象列表,获取第i个状态特征向量(S202);将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量(S204);获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量(S206);以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数(S208);以及对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表(S210),其中,所述更新的M组对象列表中的每组对象列表包括i个对象。
Latest bibliographic data on file with the International Bureau