Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022001134 - LOAD BALANCING METHOD, APPARATUS AND DEVICE FOR PARALLEL MODEL TRAINING TASK, AND STORAGE MEDIUM

Publication Number WO/2022/001134
Publication Date 06.01.2022
International Application No. PCT/CN2021/076963
International Filing Date 20.02.2021
IPC
G06F 9/50 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
9Arrangements for program control, e.g. control units
06using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
46Multiprogramming arrangements
50Allocation of resources, e.g. of the central processing unit
Applicants
  • 浪潮电子信息产业股份有限公司 INSPUR ELECTRONIC INFORMATION INDUSTRY CO., LTD. [CN]/[CN]
Inventors
  • 王丽 WANG, Li
  • 高开 GAO, Kai
  • 曹芳 CAO, Fang
  • 郭振华 GUO, Zhenhua
Agents
  • 北京集佳知识产权代理有限公司 UNITALEN ATTORNEYS AT LAW
Priority Data
202010597645.328.06.2020CN
Publication Language Chinese (zh)
Filing Language Chinese (ZH)
Designated States
Title
(EN) LOAD BALANCING METHOD, APPARATUS AND DEVICE FOR PARALLEL MODEL TRAINING TASK, AND STORAGE MEDIUM
(FR) PROCÉDÉ, APPAREIL ET DISPOSITIF D'ÉQUILIBRAGE DE CHARGE POUR TÂCHE D'APPRENTISSAGE DE MODÈLE PARALLÈLE, ET SUPPORT DE STOCKAGE
(ZH) 模型并行训练任务负载均衡方法、装置、设备及存储介质
Abstract
(EN) A load balancing method, apparatus and device for a parallel model training task, and a storage medium. The method comprises: acquiring data traffic and a theoretical computational amount of each network layer in a target model; determining a theoretical computing capability of each computing device, and according to the theoretical computing capability and the theoretical computational amount, obtaining an initial computational amount corresponding to each computing device; according to the initial computational amount, performing a load balancing operation by using multiple device critical layer position division rules, so as to obtain a plurality of initial balancing schemes; compiling statistics on time performance parameters corresponding to the initial balancing schemes, and determining an intermediate balancing scheme from the initial balancing schemes according to the time performance parameters; and adjusting the intermediate balancing scheme according to the data traffic, so as to obtain a final balancing scheme. In the method, initial balancing schemes are obtained by means of theoretical computing capabilities, and an intermediate scheme is selected and adjusted, such that a load of each computing device is balanced, and the efficiency thereof is improved.
(FR) Un procédé, un appareil et un dispositif d'équilibrage de charge pour une tâche d'apprentissage de modèle parallèle, et un support de stockage. Le procédé consiste : à acquérir un trafic de données et une quantité de calcul théorique de chaque couche de réseau dans un modèle cible ; à déterminer une capacité de calcul théorique de chaque dispositif informatique, et en fonction de la capacité de calcul théorique et de la quantité de calcul théorique, à obtenir une quantité de calcul initiale correspondant à chaque dispositif informatique ; en fonction de la quantité de calcul initiale, à réaliser une opération d'équilibrage de charge à l'aide de multiples règles de division de position de couche critique pour un dispositif, de façon à obtenir une pluralité de schémas d'équilibrage initiaux ; à compiler des statistiques sur des paramètres de performance temporelle correspondant aux schémas d'équilibrage initiaux, et à déterminer un schéma d'équilibrage intermédiaire à partir des schémas d'équilibrage initiaux en fonction des paramètres de performance temporelle ; et à ajuster le schéma d'équilibrage intermédiaire en fonction du trafic de données, de façon à obtenir un schéma d'équilibrage final. Dans le procédé, des schémas d'équilibrage initiaux sont obtenus au moyen de capacités de calcul théoriques, et un schéma intermédiaire est sélectionné et ajusté, de telle sorte qu'une charge de chaque dispositif informatique est équilibrée, et son efficacité est améliorée.
(ZH) 一种模型并行训练任务负载均衡方法、装置、设备及计算机可读存储介质,包括:获取目标模型中各个网络层的数据通信量和理论计算量;确定各个计算设备的理论算力,并根据理论算力和理论计算量得到各个计算设备对应的初始计算量;根据初始计算量,采用多种设备临界层位置划分规则进行负载均衡操作,得到多个初始均衡方案;统计初始均衡方案对应的时间性能参数,并根据时间性能参数在初始均衡方案中确定中间均衡方案;根据数据通信量对中间均衡方案进行调整,得到最终均衡方案;该方法通过理论算力得到初始均衡方案,选择中间方案并进行调整,可以使各个计算设备的负载均衡,提高效率。
Related patent documents
Latest bibliographic data on file with the International Bureau