(EN) Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for a system configured to select actions to be performed by an agent that interacts with an environment. The system comprises a manager neural network subsystem and a worker neural network subsystem. The manager subsystem is configured to, at each of the multiple time steps, generate a final goal vector for the time step. The worker subsystem is configured to, at each of multiple time steps, use the final goal vector generated by the manager subsystem to generate a respective action score for each action in a predetermined set of actions.
(FR) La présente invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur des supports de stockage informatique, destinés à un système conçu pour sélectionner des actions à effectuer par un agent qui interagit avec un environnement. Le système comprend un sous-système de réseau neuronal de gestionnaire et un sous-système de réseau neuronal de travailleur. Le sous-système de gestionnaire est configuré, à chacune des multiples étapes temporelles, pour générer un vecteur d'objectif final pour l'étape temporelle. Le sous-système de travailleur est configuré, à chacune de multiples étapes temporelles, pour utiliser le vecteur d'objectif final généré par le sous-système de gestionnaire pour générer un score d'action respectif pour chaque action dans un ensemble prédéfini d'actions.