Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020108371 - PARTITIONING OF DEEP LEARNING INFERENCE WITH DYNAMIC OFFLOADING

Publication Number WO/2020/108371
Publication Date 04.06.2020
International Application No. PCT/CN2019/119894
International Filing Date 21.11.2019
IPC
H04L 29/08 2006.01
HELECTRICITY
04ELECTRIC COMMUNICATION TECHNIQUE
LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
29Arrangements, apparatus, circuits or systems, not covered by a single one of groups H04L1/-H04L27/136
02Communication control; Communication processing
06characterised by a protocol
08Transmission control procedure, e.g. data link level control procedure
CPC
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 5/04
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
5Computer systems using knowledge-based models
04Inference methods or devices
Applicants
  • ALIBABA GROUP HOLDING LIMITED
Inventors
  • CHE, Shuai
  • CHEN, Guoyang
  • LI, Yingmin
Agents
  • BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.
Priority Data
16/206,08230.11.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) PARTITIONING OF DEEP LEARNING INFERENCE WITH DYNAMIC OFFLOADING
(FR) PARTITIONNEMENT D'INFÉRENCE D'APPRENTISSAGE PROFOND À DÉLESTAGE DYNAMIQUE
Abstract
(EN)
Systems and methods are provided for improving the learning inference performance by partitioning the learning inference based on system fluctuations and available resources by parsing a trained neural network model of a neural network into a data flow graph with a plurality of nodes; generating a traversal order of the data flow graph; assigning a load level range to each edge device, an interconnect connecting the edge device and a cloud computing platform, and the cloud computing platform; profiling performance of each node over the load level range for the edge device and the cloud computing platform; and determining a partition point of the data flow graph based on the profiled performance of each node. By using a lookup table storing the profiled performance, the data flow diagram may be readily re-partitioned as needed for improving performance.
(FR)
L'invention concerne des systèmes et des procédés permettant d'améliorer les performances d'une inférence d'apprentissage en partitionnant l'inférence d'apprentissage sur la base de fluctuations d'un système et de ressources disponibles. Ledit partitionnement comprend les étapes consistant à : analyser un modèle de réseau neuronal entraîné en un graphe de flux de données comportant une pluralité de nœuds ; générer un ordre de parcours du graphe de flux de données ; attribuer une plage de niveaux de charge à chaque dispositif périphérique, une interconnexion connectant le dispositif périphérique à une plate-forme informatique en nuage, ainsi qu'à la plate-forme informatique en nuage ; profiler les performances de chaque nœud sur la plage de niveaux de charge associée au dispositif périphérique et à la plate-forme informatique en nuage ; et déterminer un point de partition du graphe de flux de données sur la base des performances profilées de chaque nœud. Grâce à l'utilisation d'une table de correspondance stockant les performances profilées, le diagramme de flux de données peut facilement être repartitionné en fonction des besoins pour améliorer les performances.
Also published as
Latest bibliographic data on file with the International Bureau