Processing

Please wait...

Settings

Settings

Goto Application

1. EP3692473 - MACHINE LEARNING SYSTEM

Office European Patent Office
Application Number 18795298
Application Date 04.10.2018
Publication Number 3692473
Publication Date 12.08.2020
Publication Kind A1
IPC
G06N 3/00
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
G06N 3/04
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architecture, e.g. interconnection topology
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 7/00
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
7Computer systems based on specific mathematical models
CPC
G06N 3/006
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
004Artificial life, i.e. computers simulating life
006based on simulated virtual individual or collective life forms, e.g. single "avatar", social simulations, virtual worlds or particle swarm optimisation
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 7/005
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
7Computer systems based on specific mathematical models
005Probabilistic networks
Applicants PROWLER IO LTD
Inventors TUKIAINEN ALEKSI
KIM DONGHO
NICHOLSON THOMAS
TOMCZAK MARCIN
MUNOZ DE COTE FLORES LUNA JOSE ENRIQUE
FERGUSON NEIL
ELEFTHERIADIS STEFANOS
SEPPA JUHA
BEATTIE DAVID
JENNINGS JOEL
HENSMAN JAMES
LEIBFRIED FELIX
GRAU-MOYA JORDI
JOHN SEBASTIAN
VRANCX PETER
BOU AMMAR HAITHAM
Designated States
Priority Data 17275185 21.11.2017 EP
20170100448 04.10.2017 GR
Title
(DE) SYSTEM ZUM MASCHINELLEN LERNEN
(EN) MACHINE LEARNING SYSTEM
(FR) SYSTÈME D'APPRENTISSAGE AUTOMATIQUE
Abstract
(EN)
There is described a machine learning system comprising a first subsystem and a second subsystem remote from the first subsystem. The first subsystem comprises an environment having multiple possible states and a decision making subsystem comprising one or more agents. Each agent is arranged to receive state information indicative of a current state of the environment and to generate an action signal dependent on the received state information and a policy associated with that agent, the action signal being operable to cause a change in a state of the environment. Each agent is further arranged to generate experience data dependent on the received state information and information conveyed by the action signal. The first subsystem includes a first network interface configured to send said experience data to the second subsystem and to receive policy data from the second subsystem. The second subsystem comprises: a second network interface configured to receive experience data from the first subsystem and send policy data to the first subsystem; and a policy learner configured to process said received experience data to generate said policy data, dependent on the experience data, for updating one or more policies associated with the one or more agents. The decision making subsystem is operable to update the one or more policies associated with the one or more agents in accordance with policy data received from the second subsystem.

(FR)
L'invention concerne un système d'apprentissage automatique comprenant un premier sous-système et un second sous-système distant du premier sous-système. Le premier sous-système comprend un environnement ayant de multiples états possibles et un sous-système de prise de décision comprenant un ou plusieurs agents. Chaque agent est conçu pour recevoir des informations d'état indiquant un état actuel de l'environnement et pour générer un signal d'action en fonction des informations d'état reçues et d'une politique associée audit agent, le signal d'action étant utilisable pour provoquer un changement dans un état de l'environnement. Chaque agent est en outre conçu pour générer des données d'expérience en fonction des informations d'état reçues et des informations transmises par le signal d'action. Le premier sous-système comprend une première interface réseau configurée pour envoyer lesdites données d'expérience au second sous-système et pour recevoir des données de politique en provenance du second sous-système. Le second sous-système comprend : une seconde interface réseau configurée pour recevoir des données d'expérience provenant du premier sous-système et envoyer des données de politique au premier sous-système; et un système d'apprentissage de politique configuré pour traiter lesdites données d'expérience reçues pour générer lesdites données de politique, en fonction des données d'expérience, pour mettre à jour une ou plusieurs politiques associées à l'agent ou aux agents. Le sous-système de prise de décision est utilisable pour mettre à jour la ou les politiques associées à l'agent ou aux agents conformément aux données de politique reçues en provenance du second sous-système.