(JA)
環境と相互作用するエージェントによって遂行される行動を選択するように構成されたシステム用の、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置。このシステムは、マネージャニューラルネットワークサブシステムおよびワーカニューラルネットワークサブシステムを備える。マネージャサブシステムは、複数の時間ステップの各々において、時間ステップに関する最終的な目標ベクトルを生成するように構成されている。ワーカサブシステムは、複数の時間ステップの各々において、マネージャサブシステムによって生成された最終的な目標ベクトルを使用して、所定の行動セットにおける各行動に関するそれぞれの行動スコアを生成するように構成されている。