Processing

Please wait...

Settings

Settings

1. WO2020003374 - LEARNING DEVICE, INFORMATION PROCESSING SYSTEM, LEARNING METHOD, AND LEARNING PROGRAM

Publication Number WO/2020/003374
Publication Date 02.01.2020
International Application No. PCT/JP2018/024162
International Filing Date 26.06.2018
IPC
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
N
COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
99
Subject matter not provided for in other groups of this subclass
G06N 99/00 (2010.01)
CPC
G06N 99/00
Applicants
  • 日本電気株式会社 NEC CORPORATION [JP/JP]; 東京都港区芝五丁目7番1号 7-1, Shiba 5-chome, Minato-ku, Tokyo 1088001, JP
Inventors
  • 比嘉 亮太 HIGA Ryota; JP
Agents
  • 岩壁 冬樹 IWAKABE Fuyuki; JP
  • 塩川 誠人 SHIOKAWA Masato; JP
Priority Data
Publication Language Japanese (JA)
Filing Language Japanese (JA)
Designated States
Title
(EN) LEARNING DEVICE, INFORMATION PROCESSING SYSTEM, LEARNING METHOD, AND LEARNING PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE, SYSTÈME DE TRAITEMENT D'INFORMATIONS, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE
(JA) 学習装置、情報処理システム、学習方法、および学習プログラム
Abstract
(EN)
A model-setting unit 81: correlates, as problem setting handled in reinforcement learning, a policy for determining an action to be taken in a state of environment to a Boltzmann distribution that represents the probability distribution of a prescribed state; and sets a model in which a state of environment and a remuneration function for determining the remuneration obtained by an action selected in said state are correlated to a physical equation that represents a physical quantity corresponding to energy. A parameter estimation unit 82 performs reinforcement learning using learning data that includes a state on the basis of the set model, and thereby estimates parameters of the physical equation. A difference detection unit 83 detects a difference between the parameters of the physical equation estimated in the past and the newly estimated parameters of the physical equation.
(FR)
La présente invention concerne une unité de définition de modèle 81 qui exécute les tâches suivantes : mettre en corrélation, comme définition de problème prise en charge dans un apprentissage de renforcement, une politique pour déterminer une action à prendre dans un état d'environnement sur une distribution de Boltzmann qui représente la distribution de probabilité d'un état prescrit; et définir un modèle dans lequel un état d'environnement et une fonction de rémunération pour déterminer la rémunération obtenue par une action sélectionnée dans ledit état sont corrélés à une équation physique qui représente une quantité physique correspondant à l'énergie. Une unité d'estimation de paramètres 82 effectue un apprentissage de renforcement à l'aide de données d'apprentissage qui comprennent un état sur la base du modèle défini, et estime ainsi des paramètres de l'équation physique. Une unité de détection de différence 83 détecte une différence entre les paramètres de l'équation physique estimée dans le passé et les paramètres nouvellement estimés de l'équation physique.
(JA)
モデル設定部81は、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態およびその状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定する。パラメータ推定部82は、設定されたモデルに基づき、状態を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する。差分検出部83は、過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する。
Latest bibliographic data on file with the International Bureau