Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020113228 - COMMANDE DE ROBOTS À L'AIDE DE CONTRAINTES D'ENTROPIE

Numéro de publication WO/2020/113228
Date de publication 04.06.2020
N° de la demande internationale PCT/US2019/064047
Date du dépôt international 02.12.2019
CIB
G06N 3/08 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
NSYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3Systèmes de calculateurs basés sur des modèles biologiques
02utilisant des modèles de réseaux neuronaux
08Méthodes d'apprentissage
CPC
G06N 3/084
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
084Back-propagation
Déposants
  • GOOGLE LLC [US]/[US]
Inventeurs
  • HAARNOJA, Tuomas
Mandataires
  • PORTNOV, Michael
Données relatives à la priorité
62/773,93230.11.2018US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) CONTROLLING ROBOTS USING ENTROPY CONSTRAINTS
(FR) COMMANDE DE ROBOTS À L'AIDE DE CONTRAINTES D'ENTROPIE
Abrégé
(EN)
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a policy neural network having policy parameters. One of the methods includes obtaining trajectory data comprising one or more tuples; updating, using the trajectory data, current values of the policy parameters using a maximum entropy reinforcement learning technique that maximizes both (i) a reward term and (ii) an entropy term, wherein a relative weight between the entropy term and the reward term in the maximization is determined by a temperature parameter; and updating, using the probability distributions defined by the policy outputs generated in accordance with the current values of the policy parameters for the tuples in the trajectory data, the temperature parameter to regulate an expected entropy of the probability distributions to at least equal a minimum expected entropy value.
(FR)
L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de mémoire informatique, qui permettent de former un réseau de neurones artificiels ayant des paramètres de politique. L'un des procédés consiste à obtenir des données de trajectoire comprenant un ou plusieurs n-uplets ; à mettre à jour, à l'aide des données de trajectoire, des valeurs actuelles des paramètres de politique à l'aide d'une technique d'apprentissage de renforcement d'entropie maximale qui maximise à la fois (i) un terme de récompense et (ii) un terme d'entropie, un poids relatif entre le terme d'entropie et le terme de récompense dans la maximisation étant déterminé par un paramètre de température ; à mettre à jour, à l'aide des distributions de probabilité définies par les sorties de politique générées en fonction des valeurs actuelles des paramètres de politique pour les n-uplets dans les données de trajectoire, le paramètre de température pour réguler une entropie prévue des distributions de probabilité à au moins une valeur d'entropie attendue minimale.
Dernières données bibliographiques dont dispose le Bureau international