Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020115903 - LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM

Publication Number WO/2020/115903
Publication Date 11.06.2020
International Application No. PCT/JP2018/045112
International Filing Date 07.12.2018
IPC
G06N 20/00 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
CPC
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
Applicants
  • 日本電気株式会社 NEC CORPORATION [JP]/[JP]
Inventors
  • 比嘉 亮太 HIGA Ryota
Agents
  • 岩壁 冬樹 IWAKABE Fuyuki
  • 塩川 誠人 SHIOKAWA Masato
Priority Data
Publication Language Japanese (JA)
Filing Language Japanese (JA)
Designated States
Title
(EN) LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE
(JA) 学習装置、学習方法、および学習プログラム
Abstract
(EN)
A learning device 80 is provided with an input unit 81 and an imitation learning unit 82. The input unit 81 accepts an input of a type of a reward function. The imitation learning unit 82 learns a policy by imitation learning on the basis of learning data. The imitation learning unit 82 additionally learns a reward function corresponding to the type by imitation learning on the basis of a form which is defined according to the type.
(FR)
La présente invention concerne un dispositif d'apprentissage 80 qui comporte une unité d'entrée 81 et une unité d'apprentissage par imitation 82. L'unité d'entrée 81 accepte une entrée d'un type d'une fonction de récompense. L'unité d'apprentissage par imitation 82 apprend une politique par apprentissage par imitation sur la base de données d'apprentissage. L'unité d'apprentissage par imitation 82 apprend en outre une fonction de récompense correspondant au type par apprentissage par imitation sur la base d'une forme qui est définie selon le type.
(JA)
学習装置80は、入力部81と、模倣学習部82とを備えている。入力部81は、報酬関数のタイプの入力を受け付ける。模倣学習部82は、学習データに基づいて模倣学習により方策を学習する。また、模倣学習部82は、タイプに応じて定義された型に基づいて、模倣学習により、そのタイプに応じた報酬関数を学習する。
Latest bibliographic data on file with the International Bureau