Processing

Please wait...

Settings

Settings

Goto Application

1. JP2020508524 - ニューラルネットワークを使用する強化学習のための行動選択

Office Japan
Application Number 2019546129
Application Date 19.02.2018
Publication Number 2020508524
Publication Date 19.03.2020
Publication Kind A
CPC
G06N 3/006
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
004Artificial life, i.e. computers simulating life
006based on simulated virtual individual or collective life forms, e.g. single "avatar", social simulations, virtual worlds or particle swarm optimisation
G06N 3/0445
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0445Feedback networks, e.g. hopfield nets, associative networks
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 3/04
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
Applicants ディープマインド テクノロジーズ リミテッド
Inventors サイモン・オシンデロ
コーレイ・カヴクチュオグル
アレキサンダー・ヴェズネヴェッツ
Agents 村山 靖彦
実広 信哉
阿部 達彦
Priority Data 01624635 25.07.1932 US
Title
(JA) ニューラルネットワークを使用する強化学習のための行動選択
Abstract
(JA)

環境と相互作用するエージェントによって遂行される行動を選択するように構成されたシステム用の、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置。このシステムは、マネージャニューラルネットワークサブシステムおよびワーカニューラルネットワークサブシステムを備える。マネージャサブシステムは、複数の時間ステップの各々において、時間ステップに関する最終的な目標ベクトルを生成するように構成されている。ワーカサブシステムは、複数の時間ステップの各々において、マネージャサブシステムによって生成された最終的な目標ベクトルを使用して、所定の行動セットにおける各行動に関するそれぞれの行動スコアを生成するように構成されている。