Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Tuesday 25.01.2022 at 12:00 PM CET
Settings

Settings

Goto Application

1. WO2022006329 - ATTENTION NEURAL NETWORKS WITH CONDITIONAL COMPUTATION

Publication Number WO/2022/006329
Publication Date 06.01.2022
International Application No. PCT/US2021/039976
International Filing Date 30.06.2021
IPC
G06N 3/04 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architecture, e.g. interconnection topology
G06N 3/08 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
Applicants
  • GOOGLE LLC [US]/[US]
Inventors
  • LEPIKHIN, Dmitry
  • HUANG, Yanping
  • FIRAT, Orhan
  • KRIKUN, Maxim
  • CHEN, Dehao
  • SHAZEER, Noam M.
  • LEE, HyoukJoong
  • XU, Yuanzhong
  • CHEN, Zhifeng
Agents
  • SHEPHERD, Michael P.
  • PORTNOV, Michael
Priority Data
63/046,54530.06.2020US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) ATTENTION NEURAL NETWORKS WITH CONDITIONAL COMPUTATION
(FR) RÉSEAUX NEURONAUX D'ATTENTION AVEC CALCUL CONDITIONNEL
Abstract
(EN) Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for performing a machine learning task on a network input to generate a network output. In one aspect, one of the systems includes an attention neural network configured to perform the machine learning task, the attention neural network including one or more attention layers, each attention layer comprising an attention sub-layer and a feed-forward sub-layer. Some or all of the attention layers have a feed-forward sub-layer that applies conditional computation to the inputs to the sub-layer.
(FR) L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur un support de stockage informatique, pour effectuer une tâche d'apprentissage automatique sur une entrée de réseau pour générer une sortie de réseau. Selon un aspect, un des systèmes comprend un réseau neuronal d'attention configuré pour effectuer la tâche d'apprentissage automatique, le réseau neuronal d'attention comprenant une ou plusieurs couches d'attention, chaque couche d'attention comprenant une sous-couche d'attention et une sous-couche à propagation avant. Une partie ou la totalité des couches d'attention ont une sous-couche à propagation avant qui applique un calcul conditionnel aux entrées à la sous-couche.
Latest bibliographic data on file with the International Bureau