Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020115903 - DISPOSITIF D'APPRENTISSAGE, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE

Numéro de publication WO/2020/115903
Date de publication 11.06.2020
N° de la demande internationale PCT/JP2018/045112
Date du dépôt international 07.12.2018
CIB
G06N 20/00 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
NSYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
20Apprentissage automatique
CPC
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
Déposants
  • 日本電気株式会社 NEC CORPORATION [JP]/[JP]
Inventeurs
  • 比嘉 亮太 HIGA Ryota
Mandataires
  • 岩壁 冬樹 IWAKABE Fuyuki
  • 塩川 誠人 SHIOKAWA Masato
Données relatives à la priorité
Langue de publication japonais (JA)
Langue de dépôt japonais (JA)
États désignés
Titre
(EN) LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE, PROCÉDÉ D'APPRENTISSAGE ET PROGRAMME D'APPRENTISSAGE
(JA) 学習装置、学習方法、および学習プログラム
Abrégé
(EN)
A learning device 80 is provided with an input unit 81 and an imitation learning unit 82. The input unit 81 accepts an input of a type of a reward function. The imitation learning unit 82 learns a policy by imitation learning on the basis of learning data. The imitation learning unit 82 additionally learns a reward function corresponding to the type by imitation learning on the basis of a form which is defined according to the type.
(FR)
La présente invention concerne un dispositif d'apprentissage 80 qui comporte une unité d'entrée 81 et une unité d'apprentissage par imitation 82. L'unité d'entrée 81 accepte une entrée d'un type d'une fonction de récompense. L'unité d'apprentissage par imitation 82 apprend une politique par apprentissage par imitation sur la base de données d'apprentissage. L'unité d'apprentissage par imitation 82 apprend en outre une fonction de récompense correspondant au type par apprentissage par imitation sur la base d'une forme qui est définie selon le type.
(JA)
学習装置80は、入力部81と、模倣学習部82とを備えている。入力部81は、報酬関数のタイプの入力を受け付ける。模倣学習部82は、学習データに基づいて模倣学習により方策を学習する。また、模倣学習部82は、タイプに応じて定義された型に基づいて、模倣学習により、そのタイプに応じた報酬関数を学習する。
Dernières données bibliographiques dont dispose le Bureau international