(EN) A method for training the transformer model that strikes a middle ground between local and global learning by using interlocking backpropagation. Instead of training with one single global objective, or training with each accelerator having its own local objective, the method trains a large-scale network with auxiliary classification layers. The auxiliary classification layers use local losses to optimize a subset of the network. The local losses may be computed based on a group of processing units. Different groups of processing units may contain overlapping processing units such that there is indirect communication flow throughout the network.
(FR) L'invention concerne un procédé de formation du modèle de transformeur qui frappe une masse intermédiaire entre un apprentissage local et global par l'utilisation d'une rétropropagation à verrouillage. Au lieu de former avec un seul objectif global, ou de former chaque accélérateur ayant son propre objectif local, le procédé forme un réseau à grande échelle avec des couches de classification auxiliaires. Les couches de classification auxiliaires utilisent des pertes locales pour optimiser un sous-ensemble du réseau. Les pertes locales peuvent être calculées sur la base d'un groupe d'unités de traitement. Différents groupes d'unités de traitement peuvent contenir des unités de traitement se chevauchant de telle sorte qu'il existe un flux de communication indirect dans tout le réseau.