処理中

しばらくお待ちください...

設定

設定

出願の表示

1. WO2020115904 - 学習装置、学習方法、および学習プログラム

公開番号 WO/2020/115904
公開日 11.06.2020
国際出願番号 PCT/JP2018/045113
国際出願日 07.12.2018
IPC
G06N 20/00 2019.01
G物理学
06計算;計数
N特定の計算モデルに基づくコンピュータ・システム
20機械学習
CPC
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
出願人
  • 日本電気株式会社 NEC CORPORATION [JP]/[JP]
発明者
  • 比嘉 亮太 HIGA Ryota
代理人
  • 岩壁 冬樹 IWAKABE Fuyuki
  • 塩川 誠人 SHIOKAWA Masato
優先権情報
公開言語 (言語コード) 日本語 (JA)
出願言語 (言語コード) 日本語 (JA)
指定国 (国コード)
発明の名称
(EN) LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE
(JA) 学習装置、学習方法、および学習プログラム
要約
(EN)
A learning device 80 according to the present invention is a learning device for learning a model applied to a device that uses a specific model to perform a process, the learning device comprising an input unit 81 and an imitation learning unit 82. The input unit 81 receives a reward function type input. The imitation learning unit 82 learns policy, via imitation learning, on the basis of learning data. Through imitation learning, the imitation learning unit 82 learns a reward function corresponding to the inputted reward function type.
(FR)
Un dispositif d'apprentissage (80) selon la présente invention est un dispositif d'apprentissage pour entraîner un modèle appliqué à un dispositif qui utilise un modèle spécifique pour effectuer un processus, le dispositif d'apprentissage comprenant une unité d'entrée (81) et une unité d'apprentissage par imitation (82). L'unité d'entrée (81) reçoit une entrée de type de fonction de récompense. L'unité d'apprentissage par imitation (82) apprend une politique, par l'intermédiaire d'un apprentissage par imitation, en fonction de données d'apprentissage. Par apprentissage par imitation, l'unité d'apprentissage par imitation (82) apprend une fonction de récompense correspondant au type de fonction de récompense fourni en entrée.
(JA)
学習装置80は、特定のモデルを用いて処理を行うデバイスに適用されるモデルを学習する学習装置であって、入力部81と、模倣学習部82とを備えている。入力部81は、報酬の関数形の入力を受け付ける。模倣学習部82は、学習データに基づいて模倣学習により方策を学習する。模倣学習部82は、模倣学習により、入力された報酬の関数形に応じた報酬関数を学習する。
国際事務局に記録されている最新の書誌情報