Processing

Please wait...

Settings

Settings

Goto Application

1. WO2021058270 - GATED ATTENTION NEURAL NETWORKS

Publication Number WO/2021/058270
Publication Date 01.04.2021
International Application No. PCT/EP2020/074913
International Filing Date 07.09.2020
IPC
G06N 3/04 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architecture, e.g. interconnection topology
CPC
G06N 3/006
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
004Artificial life, i.e. computers simulating life
006based on simulated virtual individual or collective life forms, e.g. single "avatar", social simulations, virtual worlds or particle swarm optimisation
G06N 3/0445
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0445Feedback networks, e.g. hopfield nets, associative networks
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/0481
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0481Non-linear activation functions, e.g. sigmoids, thresholds
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
Applicants
  • DEEPMIND TECHNOLOGIES LIMITED [GB]/[GB]
Inventors
  • PARISOTTO, Emilio
  • SONG, Hasuk
  • RAE, Jack William
  • JAYAKUMAR, Siddhant Madhu
  • JADERBERG, Maxwell Elliot
  • PASCANU, Razvan
  • GULCEHRE, Caglar
Agents
  • KUNZ, Herbert
Priority Data
62/906,03225.09.2019US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) GATED ATTENTION NEURAL NETWORKS
(FR) RÉSEAUX NEURONAUX D'ATTENTION COMMANDÉS PAR PORTE
Abstract
(EN)
A system including an attention neural network that is configured to receive an input sequence and to process the input sequence to generate an output is described. The attention neural network includes: an attention block configured to receive a query input, a key input, and a value input that are derived from an attention block input. The attention block includes an attention neural network layer configured to: receive an attention layer input derived from the query input, the key input, and the value input, and apply an attention mechanism to the query input, the key input, and the value input to generate an attention layer output for the attention neural network layer; and a gating neural network layer configured to apply a gating mechanism to the attention block input and the attention layer output of the attention neural network layer to generate a gated attention output.
(FR)
L'invention concerne un système comprenant un réseau neuronal d'attention qui est configuré pour recevoir une séquence d'entrée et pour traiter la séquence d'entrée pour générer une sortie. Le réseau neuronal d'attention comprend : un bloc d'attention configuré pour recevoir une entrée d'interrogation, une entrée de clé et une entrée de valeur qui sont dérivées d'une entrée de bloc d'attention. Le bloc d'attention comprend une couche de réseau neuronal d'attention configurée pour : recevoir une entrée de couche d'attention dérivée de l'entrée d'interrogation, de l'entrée de clé et de l'entrée de valeur, et appliquer un mécanisme d'attention à l'entrée d'interrogation, à l'entrée de clé et à l'entrée de valeur pour générer une sortie de couche d'attention pour la couche de réseau neuronal d'attention; et une couche de réseau neuronal de déclenchement configurée pour appliquer un mécanisme de déclenchement à l'entrée de bloc d'attention et à la sortie de couche d'attention de la couche de réseau neuronal d'attention pour générer une sortie d'attention commandée par porte.
Latest bibliographic data on file with the International Bureau