Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2018142212) APPRENTISSAGE PAR RENFORCEMENT ÉCONOME EN DONNÉES POUR TÂCHES DE COMMANDE CONTINUE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2018/142212 N° de la demande internationale : PCT/IB2018/000051
Date de publication : 09.08.2018 Date de dépôt international : 31.01.2018
CIB :
G06N 3/04 (2006.01) ,G06N 3/08 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3
Systèmes de calculateurs basés sur des modèles biologiques
02
utilisant des modèles de réseaux neuronaux
04
Architecture, p.ex. topologie d'interconnexion
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3
Systèmes de calculateurs basés sur des modèles biologiques
02
utilisant des modèles de réseaux neuronaux
08
Méthodes d'apprentissage
Déposants :
DEEPMIND TECHNOLOGIES LIMITED [GB/GB]; 5 New Street Square London EC4A 3TW, GB
Inventeurs :
RIEDMILLER, Martin; GB
HAFNER, Roland; GB
VECERIK, Matej; GB
LILLICRAP, Timothy, Paul; GB
LAMPE, Thomas; GB
POPOV, Ivaylo; GB
BARTH-MARON, Gabriel; GB
HEESS, Nicolas, Manfred, Otto; GB
Mandataire :
KUNZ, Herbert; Fish & Richardson P.C. Highlight Business Towers Mies-van-der-Rohe-Strasse 8 80807 München, DE
Données relatives à la priorité :
62/452,93031.01.2017US
Titre (EN) DATA-EFFICIENT REINFORCEMENT LEARNING FOR CONTINUOUS CONTROL TASKS
(FR) APPRENTISSAGE PAR RENFORCEMENT ÉCONOME EN DONNÉES POUR TÂCHES DE COMMANDE CONTINUE
Abrégé :
(EN) Methods, systems, and apparatus, including computer programs encoded on computer storage media, for data-efficient reinforcement learning. One of the systems is a system for training an actor neural network used to select actions to be performed by an agent that interacts with an environment by receiving observations characterizing states of the environment and, in response to each observation, performing an action selected from a continuous space of possible actions, wherein the actor neural network maps observations to next actions in accordance with values of parameters of the actor neural network, and wherein the system comprises: a plurality of workers, wherein each worker is configured to operate independently of each other worker, wherein each worker is associated with a respective agent replica that interacts with a respective replica of the environment during the training of the actor neural network.
(FR) L'invention concerne des procédés, des systèmes et un appareil, contenant des programmes informatiques encodés sur des supports de stockage informatique, pour un apprentissage par renforcement économe en données. Un des systèmes est un système d'entraînement d'un réseau neuronal acteur utilisé pour sélectionner des actions à effectuer par un agent qui interagit avec un environnement en recevant des observations caractérisant des états de l'environnement et, en réponse à chaque observation, en effectuant une action sélectionnée dans un espace continu d'actions possibles, où le réseau neuronal acteur mappe des observations avec des actions suivantes en fonction de valeurs de paramètres du réseau neuronal acteur, et où le système comprend : une pluralité de travailleurs, où chaque travailleur est configuré pour fonctionner indépendamment de chaque autre travailleur, où chaque travailleur est associé à une réplique d'agent respective qui interagit avec une réplique respective de l'environnement pendant l'entraînement du réseau neuronal acteur.
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)