Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022004601 - DISTRIBUTED REINFORCEMENT LEARNING SYSTEM, AND DISTRIBUTED REINFORCEMENT LEARNING METHOD

Publication Number WO/2022/004601
Publication Date 06.01.2022
International Application No. PCT/JP2021/024184
International Filing Date 25.06.2021
IPC
G06N 20/00 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
CPC
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
Applicants
  • 株式会社Preferred Networks PREFERRED NETWORKS, INC. [JP]/[JP]
Inventors
  • 上西 康太 UENISHI, Kota
  • 藤田 康博 FUJITA, Yasuhiro
Agents
  • 伊東 忠重 ITOH, Tadashige
  • 伊東 忠彦 ITOH, Tadahiko
Priority Data
2020-11584903.07.2020JP
Publication Language Japanese (ja)
Filing Language Japanese (JA)
Designated States
Title
(EN) DISTRIBUTED REINFORCEMENT LEARNING SYSTEM, AND DISTRIBUTED REINFORCEMENT LEARNING METHOD
(FR) SYSTÈME D'APPRENTISSAGE DE RENFORCEMENT DISTRIBUÉ ET PROCÉDÉ D'APPRENTISSAGE DE RENFORCEMENT DISTRIBUÉ
(JA) 分散強化学習システム及び分散強化学習方法
Abstract
(EN) The objective of the present invention is to provide a novel distributed reinforcement learning system. An embodiment of the present disclosure relates to a distributed reinforcement learning system which includes a replay buffer group for storing experience data to be used in reinforcement learning, a learner device group for training a model on the basis of the experience data, and an actor device for acquiring the experience data using the model that has been trained by the learner device group, wherein each replay buffer stores mutually different experience data and is associated with one or more learner devices of the learner device group.
(FR) L'objectif de la présente invention est de fournir un nouveau système d'apprentissage de renforcement distribué. À cet effet, selon un mode de réalisation, la présente divulgation concerne un système d'apprentissage de renforcement distribué qui comprend un groupe de mémoires tampon de relecture permettant de stocker des données d'expérience à utiliser dans l'apprentissage de renforcement, un groupe de dispositifs d'apprentissage permettant d'entraîner un modèle sur la base des données d'expérience, et un dispositif acteur permettant d'acquérir les données d'expérience à l'aide du modèle qui a été entraîné par le groupe de dispositifs d'apprentissage, chaque mémoire tampon de relecture stockant des données d'expérience mutuellement différentes et étant associée à un ou plusieurs dispositifs d'apprentissage du groupe de dispositifs d'apprentissage.
(JA) 新規な分散強化学習システムを提供することである。本開示の一態様は、強化学習に用いられる経験データを格納するReplayバッファ群と、前記経験データに基づいてモデルを訓練するLearner装置群と、前記Learner装置群によって訓練されたモデルを用いて前記経験データを取得するActor装置と、を有し、各Replayバッファは、互いに異なる経験データを格納し、前記Learner装置群の1つ以上のLearner装置と関連付けられる、分散強化学習システムに関する。
Latest bibliographic data on file with the International Bureau