Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020092437 - DETERMINING CONTROL POLICIES BY MINIMIZING THE IMPACT OF DELUSION

Publication Number WO/2020/092437
Publication Date 07.05.2020
International Application No. PCT/US2019/058660
International Filing Date 29.10.2019
IPC
G06N 3/00 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
G06N 3/08 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
CPC
G06N 3/006
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
004Artificial life, i.e. computers simulating life
006based on simulated virtual individual or collective life forms, e.g. single "avatar", social simulations, virtual worlds or particle swarm optimisation
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
Applicants
  • GOOGLE LLC [US]/[US]
Inventors
  • LU, Tian
  • SCHUURMANS, Dale Eric
  • BOUTILIER, Craig Edgar
Agents
  • PORTNOV, Michael
Priority Data
62/752,30629.10.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) DETERMINING CONTROL POLICIES BY MINIMIZING THE IMPACT OF DELUSION
(FR) DÉTERMINATION DE POLITIQUES DE CONTRÔLE EN RÉDUISANT AU MINIMUM L'IMPACT DE LA DÉLUSION
Abstract
(EN)
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for determining a control policy for an agent interacting with an environment. One of the methods includes updating the control policy using policy-consistent backups using Q learning. To determine a policy-consistent backup, the system determining a policy-consistent backup for the control policy at the current observation - current action pair, comprising: for each of a plurality of actions in a set of possible actions that can be performed by the agent, identifying Q values assigned by the control policy to next observation - action pairs by the control policy and justified by at least one of the information sets; pruning, from the identified Q values, any Q values that are justified only by information sets that are not policy-class consistent; and determining, from the reward and only the identified Q values that were not pruned, the policy-consistent backup.
(FR)
L’invention concerne des procédés, des systèmes et un appareil, notamment des programmes informatiques codés sur un support de stockage informatique, permettant de déterminer une politique de contrôle pour un agent interagissant avec un environnement. L'un des procédés consiste à mettre à jour la politique de contrôle à l'aide de sauvegardes cohérentes avec la politique à l'aide d'un apprentissage Q. Pour déterminer une sauvegarde cohérente avec la politique, le système détermine une sauvegarde cohérente avec la politique pour la politique de contrôle au niveau de la paire observation actuelle-action actuelle, comprenant : pour chaque action d'une pluralité d'actions dans un ensemble d'actions possibles qui peuvent être effectuées par l'agent, identifier des valeurs Q attribuées par la politique de contrôle aux paires action-observation suivante par la politique de contrôle et justifiées par au moins l'un des ensembles d'informations ; élaguer, parmi les valeurs Q identifiées, toutes les valeurs Q qui ne sont justifiées que par des ensembles d'informations qui ne sont pas cohérents avec la classe de politique ; et déterminer, à partir de la récompense et uniquement des valeurs Q identifiées qui n'ont pas été élaguées, la sauvegarde cohérente avec la politique.
Latest bibliographic data on file with the International Bureau