Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018083671) REINFORCEMENT LEARNING WITH AUXILIARY TASKS
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/083671 International Application No.: PCT/IB2017/056906
Publication Date: 11.05.2018 International Filing Date: 04.11.2017
Chapter 2 Demand Filed: 05.07.2018
IPC:
G06N 3/04 (2006.01) ,G06N 3/08 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
N
COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3
Computer systems based on biological models
02
using neural network models
04
Architecture, e.g. interconnection topology
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
N
COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3
Computer systems based on biological models
02
using neural network models
08
Learning methods
Applicants:
DEEPMIND TECHNOLOGIES LIMITED [GB/GB]; 5 New Street Square London EC4A 3TW, GB
Inventors:
MNIH, Volodymyr; GB
CZARNECKI, Wojciech; GB
JADERBERG, Maxwell Elliot; GB
SCHAUL, Tom; GB
SILVER, David; GB
KAVUKCUOGLU, Koray; GB
Agent:
MARTIN, Philip; Marks & Clerk LLP 1 New York Street Manchester M1 4HD, GB
Priority Data:
62/418,12004.11.2016US
Title (EN) REINFORCEMENT LEARNING WITH AUXILIARY TASKS
(FR) APPRENTISSAGE DE RENFORCEMENT POURVU DE TÂCHES AUXILIAIRES
Abstract:
(EN) Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for training a reinforcement learning system. The method includes: training an action selection policy neural network, and during the training of the action selection neural network, training one or more auxiliary control neural networks and a reward prediction neural network. Each of the auxiliary control neural networks is configured to receive a respective intermediate output generated by the action selection policy neural network and generate a policy output for a corresponding auxiliary control task. The reward prediction neural network is configured to receive one or more intermediate outputs generated by the action selection policy neural network and generate a corresponding predicted reward. Training each of the auxiliary control neural networks and the reward prediction neural network comprises adjusting values of the respective auxiliary control parameters, reward prediction parameters, and the action selection policy network parameters.
(FR) La présente invention concerne des appareils, des systèmes et des procédés, comprenant des programmes informatiques codés sur un support d'enregistrement informatique, pour former un système d'apprentissage de renforcement. Le procédé comprend les étapes consistant : à former un réseau neuronal de politique de sélection d'action, et pendant la formation du réseau neuronal de sélection d'action, à former au moins un réseau neuronal de commande auxiliaire et un réseau neuronal de prédiction de récompense. Chacun des réseaux neuronaux de commande auxiliaires est configuré de manière à recevoir une sortie intermédiaire respective générée par le réseau neuronal de politique de sélection d'action et à générer une sortie de politique pour une tâche de commande auxiliaire correspondante. Le réseau neuronal de prédiction de récompense est configuré de manière à recevoir au moins une sortie intermédiaire générée par le réseau neuronal de politique de sélection d'action et à générer une récompense prédite correspondante. La formation de chacun des réseaux neuronaux de commande auxiliaires et du réseau neuronal de prédiction de récompense comprend le réglage de valeurs des paramètres de commande auxiliaires respectifs, des paramètres de prédiction de récompense et des paramètres de réseau de politique de sélection d'action.
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)