Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022162470 - INTERLOCKING BACKPROBAGATION FOR AUTOMATED TRAINING OF COMPUTER PREDICTIVE MODELS

Publication Number WO/2022/162470
Publication Date 04.08.2022
International Application No. PCT/IB2022/000045
International Filing Date 28.01.2022
IPC
G06N 3/08 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
CPC
G06N 3/045
G06N 3/048
G06N 3/084
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
084Back-propagation
Applicants
  • COHERE INC. [CA]/[CA]
Inventors
  • GOMEZ, Aidan
  • FROSST, Nicholas
  • GOU, Zhen
Priority Data
17/585,38026.01.2022US
63/142,89828.01.2021US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) INTERLOCKING BACKPROBAGATION FOR AUTOMATED TRAINING OF COMPUTER PREDICTIVE MODELS
(FR) RÉTROPROPAGATION À VERROUILLAGE POUR LA FORMATION AUTOMATISÉE DE MODÈLES PRÉDICTIFS INFORMATIQUES
Abstract
(EN) A method for training the transformer model that strikes a middle ground between local and global learning by using interlocking backpropagation. Instead of training with one single global objective, or training with each accelerator having its own local objective, the method trains a large-scale network with auxiliary classification layers. The auxiliary classification layers use local losses to optimize a subset of the network. The local losses may be computed based on a group of processing units. Different groups of processing units may contain overlapping processing units such that there is indirect communication flow throughout the network.
(FR) L'invention concerne un procédé de formation du modèle de transformeur qui frappe une masse intermédiaire entre un apprentissage local et global par l'utilisation d'une rétropropagation à verrouillage. Au lieu de former avec un seul objectif global, ou de former chaque accélérateur ayant son propre objectif local, le procédé forme un réseau à grande échelle avec des couches de classification auxiliaires. Les couches de classification auxiliaires utilisent des pertes locales pour optimiser un sous-ensemble du réseau. Les pertes locales peuvent être calculées sur la base d'un groupe d'unités de traitement. Différents groupes d'unités de traitement peuvent contenir des unités de traitement se chevauchant de telle sorte qu'il existe un flux de communication indirect dans tout le réseau.
Related patent documents
Latest bibliographic data on file with the International Bureau