Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020113228 - CONTROLLING ROBOTS USING ENTROPY CONSTRAINTS

Publication Number WO/2020/113228
Publication Date 04.06.2020
International Application No. PCT/US2019/064047
International Filing Date 02.12.2019
IPC
G06N 3/08 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
CPC
G06N 3/084
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
084Back-propagation
Applicants
  • GOOGLE LLC [US]/[US]
Inventors
  • HAARNOJA, Tuomas
Agents
  • PORTNOV, Michael
Priority Data
62/773,93230.11.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) CONTROLLING ROBOTS USING ENTROPY CONSTRAINTS
(FR) COMMANDE DE ROBOTS À L'AIDE DE CONTRAINTES D'ENTROPIE
Abstract
(EN)
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes obtaining trajectory data comprising one or more tuples; updating, using the trajectory data, current values of the policy parameters using a maximum entropy reinforcement learning technique that maximizes both (i) a reward term and (ii) an entropy term, wherein a relative weight between the entropy term and the reward term in the maximization is determined by a temperature parameter; and updating, using the probability distributions defined by the policy outputs generated in accordance with the current values of the policy parameters for the tuples in the trajectory data, the temperature parameter to regulate an expected entropy of the probability distributions to at least equal a minimum expected entropy value.
(FR)
L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de mémoire informatique, qui permettent de former un réseau de neurones artificiels ayant des paramètres de politique. L'un des procédés consiste à obtenir des données de trajectoire comprenant un ou plusieurs n-uplets ; à mettre à jour, à l'aide des données de trajectoire, des valeurs actuelles des paramètres de politique à l'aide d'une technique d'apprentissage de renforcement d'entropie maximale qui maximise à la fois (i) un terme de récompense et (ii) un terme d'entropie, un poids relatif entre le terme d'entropie et le terme de récompense dans la maximisation étant déterminé par un paramètre de température ; à mettre à jour, à l'aide des distributions de probabilité définies par les sorties de politique générées en fonction des valeurs actuelles des paramètres de politique pour les n-uplets dans les données de trajectoire, le paramètre de température pour réguler une entropie prévue des distributions de probabilité à au moins une valeur d'entropie attendue minimale.
Latest bibliographic data on file with the International Bureau