処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2020115903 - 学習装置、学習方法、および学習プログラム

公開番号 WO/2020/115903
公開日 11.06.2020
国際出願番号 PCT/JP2018/045112
国際出願日 07.12.2018
IPC
G06N 20/00 2019.01
G物理学
06計算;計数
N特定の計算モデルに基づくコンピュータ・システム
20機械学習
CPC
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
出願人
  • 日本電気株式会社 NEC CORPORATION [JP]/[JP]
発明者
  • 比嘉 亮太 HIGA Ryota
代理人
  • 岩壁 冬樹 IWAKABE Fuyuki
  • 塩川 誠人 SHIOKAWA Masato
優先権情報
公開言語 (言語コード) 日本語 (JA)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE
(JA) 学習装置、学習方法、および学習プログラム
要約
(EN)
A learning device 80 is provided with an input unit 81 and an imitation learning unit 82. The input unit 81 accepts an input of a type of a reward function. The imitation learning unit 82 learns a policy by imitation learning on the basis of learning data. The imitation learning unit 82 additionally learns a reward function corresponding to the type by imitation learning on the basis of a form which is defined according to the type.
(FR)
La présente invention concerne un dispositif d'apprentissage 80 qui comporte une unité d'entrée 81 et une unité d'apprentissage par imitation 82. L'unité d'entrée 81 accepte une entrée d'un type d'une fonction de récompense. L'unité d'apprentissage par imitation 82 apprend une politique par apprentissage par imitation sur la base de données d'apprentissage. L'unité d'apprentissage par imitation 82 apprend en outre une fonction de récompense correspondant au type par apprentissage par imitation sur la base d'une forme qui est définie selon le type.
(JA)
学習装置80は、入力部81と、模倣学習部82とを備えている。入力部81は、報酬関数のタイプの入力を受け付ける。模倣学習部82は、学習データに基づいて模倣学習により方策を学習する。また、模倣学習部82は、タイプに応じて定義された型に基づいて、模倣学習により、そのタイプに応じた報酬関数を学習する。
国際事務局に記録されている最新の書誌情報