Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019002465) RÉSEAUX NEURONAUX DE SÉLECTION D'ACTION D'APPRENTISSAGE À L'AIDE D'-UN APPRENTISSAGE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2019/002465 N° de la demande internationale : PCT/EP2018/067414
Date de publication : 03.01.2019 Date de dépôt international : 28.06.2018
CIB :
G06N 3/04 (2006.01) ,G06N 3/08 (2006.01) ,G06N 3/00 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3
Systèmes de calculateurs basés sur des modèles biologiques
02
utilisant des modèles de réseaux neuronaux
04
Architecture, p.ex. topologie d'interconnexion
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3
Systèmes de calculateurs basés sur des modèles biologiques
02
utilisant des modèles de réseaux neuronaux
08
Méthodes d'apprentissage
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3
Systèmes de calculateurs basés sur des modèles biologiques
Déposants :
DEEPMIND TECHNOLOGIES LIMITED [GB/GB]; 6 Pancras Square London N1C 4AG, GB
Inventeurs :
PIETQUIN, Olivier; GB
RIEDMILLER, Martin; GB
FUMIN, Wang; GB
PIOT, Bilal; GB
VECERIK, Matej; GB
HESTER, Todd Andrew; GB
ROTHORL, Thomas; GB
LAMPE, Thomas; GB
HEESS, Nicolas Manfred Otto; GB
SCHOLZ, Jonathan Karl; GB
Mandataire :
KUNZ, Herbert; DE
Données relatives à la priorité :
62/526,29028.06.2017US
Titre (EN) TRAINING ACTION SELECTION NEURAL NETWORKS USING APPRENTICESHIP
(FR) RÉSEAUX NEURONAUX DE SÉLECTION D'ACTION D'APPRENTISSAGE À L'AIDE D'-UN APPRENTISSAGE
Abrégé :
(EN) An off-policy reinforcement learning actor-critic neural network system configured to select actions from a continuous action space to be performed by an agent interacting with an environment to perform a task. An observation defines environment state data and reward data. The system has an actor neural network which learns a policy function mapping the state data to action data. A critic neural network learns an action-value (Q) function. A replay buffer stores tuples of the state data, the action data, the reward data and new state data. The replay buffer also includes demonstration transition data comprising a set of the tuples from a demonstration of the task within the environment. The neural network system is configured to train the actor neural network and the critic neural network off-policy using stored tuples from the replay buffer comprising tuples both from operation of the system and from the demonstration transition data.
(FR) Selon l’invention, un système de réseau neuronal à apprentissage par renforcement acteur-critique hors politique est configuré pour sélectionner des actions à partir d'un espace d'action continue qui doivent être effectuées par un agent interagissant avec un environnement en vue de réaliser une tâche. Une observation définit des données d'état d'environnement et des données de récompense. Le système comprend un réseau neuronal d'acteur qui apprend une fonction de politique mettant en correspondance les données d'état avec les données d'action. Un réseau neuronal critique apprend une fonction de valeur d'action (Q). Un tampon de relecture stocke des tuples des données d'état, des données d'action, des données de récompense et des nouvelles données d'état. Le tampon de relecture comprend également des données de transition de démonstration comprenant un ensemble de tuples provenant d'une démonstration de la tâche dans l'environnement. Le système de réseau neuronal est configuré pour apprendre le réseau neuronal acteur et le réseau neuronal critique hors politique à l'aide de tuples stockés à partir du tampon de relecture comprenant des tuples provenant à la fois du fonctionnement du système et des données de transition de démonstration.
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)