(EN) This management device is provided with a learning unit that, when a reward obtained from a control result of an object to be controlled by a control unit for controlling the object to be controlled using a neural network in which a parameter value is determined by reinforcement learning does not satisfy a predetermined criterion, redetermines the parameter value by reinforcement learning.
(FR) La présente invention concerne un dispositif de gestion qui est pourvu d'une unité d'apprentissage qui, lorsqu'une récompense obtenue à partir d'un résultat de commande d'un objet devant être commandé par une unité de commande servant à commander l'objet à commander à l'aide d'un réseau neuronal dans lequel une valeur de paramètre est déterminée par apprentissage par renforcement ne satisfait pas un critère prédéterminé, redétermine la valeur de paramètre par apprentissage par renforcement.
(JA) 管理装置は、強化学習によってパラメータ値が決定されるニューラルネットワークを使って制御対象を制御する制御部による前記制御対象の制御結果から求められる報酬が所定基準を満たさない場合に、強化学習によって前記パラメータ値を再決定する学習部を備える。