Recherche dans les collections de brevets nationales et internationales

1. (WO2017201222) COMMANDE SANS MODÈLE POUR DES AGENTS D'APPRENTISSAGE DE RENFORCEMENT

Pub. No.:    WO/2017/201222    International Application No.:    PCT/US2017/033221
Publication Date: Fri Nov 24 00:59:59 CET 2017 International Filing Date: Fri May 19 01:59:59 CEST 2017
IPC: G06N 3/04
G06N 3/08
Applicants: DEEPMIND TECHNOLOGIES LIMITED
Inventors: BLUNDELL, Charles
URIA-MARTINEZ, Benigno
Title: COMMANDE SANS MODÈLE POUR DES AGENTS D'APPRENTISSAGE DE RENFORCEMENT
Abstract:
L'invention concerne des procédés, des systèmes et un appareil permettant de sélectionner des actions à effectuer par un agent interagissant avec un environnement. Un procédé consiste à maintenir des données de retour qui mettent en correspondance chaque paire observation-action avec un retour respectif, l'action de la paire observation-action étant une action qui a été effectuée par l'agent en réponse à l'observation de la paire observation-action et le retour respectif mis en correspondance par chacune des paires observation-action étant un retour qui résulte du fait que l'agent a effectué l'action de la paire observation-action; recevoir une observation courante; déterminer si l'observation courante correspond à une observation identifiée dans les données de retour; et, en réponse à la détermination du fait que l'observation courante correspond à une première observation identifiée dans les données de retour, sélectionner une action à effectuer par l'agent en utilisant les retours qui ont été mis en correspondance par les paires observation-action dans les données de retour et qui contiennent la première observation.