Processing

Please wait...

Settings

Settings

1. WO2020000399 - MULTI-AGENT DEEP REINFORCEMENT LEARNING PROXY METHOD BASED ON INTELLIGENT GRID

Publication Number WO/2020/000399
Publication Date 02.01.2020
International Application No. PCT/CN2018/093753
International Filing Date 29.06.2018
IPC
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
Q
DATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
10
Administration; Management
06
Resources, workflows, human or project management, e.g. organising, planning, scheduling or allocating time, human or machine resources; Enterprise planning; Organisational models
G06Q 10/06 (2012.01)
CPC
G06Q 10/06
Applicants
  • 东莞理工学院 DONGGUAN UNIVERSITY OF TECHNOLOGY [CN/CN]; 中国广东省东莞市 松山湖大学路1号 No.1, Daxue Rd., Songshan Lake Dongguan, Guangdong 523808, CN
Inventors
  • 侯韩旭 HOU, Hanxu; CN
  • 郝建业 HAO, Jianye; CN
  • 杨耀东 YANG, Yaodong; CN
Agents
  • 深圳市科吉华烽知识产权事务所(普通合伙) SZ KINDWALF INTELLECTUAL PROPERTY FIRM; 中国广东省深圳市 南山区深南西路深南花园裙楼A区四层402室 Room 402, 4/F, Building A, Shennan Garden Shennan West Road, Nanshan District Shenzhen, Guangdong 518057, CN
Priority Data
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) MULTI-AGENT DEEP REINFORCEMENT LEARNING PROXY METHOD BASED ON INTELLIGENT GRID
(FR) PROCÉDÉ DE PROXY D'APPRENTISSAGE PAR RENFORCEMENT PROFOND À AGENTS MULTIPLES BASÉ SUR UN RÉSEAU INTELLIGENT
(ZH) 一种基于智能电网的多智能体深度强化学习代理方法
Abstract
(EN)
The present invention is applicable to the technical field of power automation control, and provides a multi-agent deep reinforcement learning proxy method based on an intelligent grid. The method comprises: S1, calculating a corresponding action standard value under a current state according to a selected action, and updating a parameter of a neural network; S2, establishing an "external competition, internal cooperation" multi-agent proxy according to the type of a consumer and a producer; S3, setting a reward function of each internal agent according to the profit maximization of the action of the agent and the interests of other internal agents. An input layer of the neural network can accept a direct input of a value of a feature of a depiction state, and Q-table needs to discretize the feature value to reduce the state space.
(FR)
La présente invention s'applique au domaine technique de la commande d'automatisation d'énergie et concerne un procédé de proxy d'apprentissage par renforcement profond à agents multiples basé sur un réseau intelligent. Le procédé comprend les étapes consistant : S1, à calculer une valeur standard d'action correspondante dans un état actuel selon une action sélectionnée, et à mettre à jour un paramètre d'un réseau de neurones artificiels; S2, à établir un proxy à agents multiples de « compétition externe, coopération interne » selon le type d'un consommateur et d'un producteur; S3, à régler une fonction de récompense de l'agent interne respectif en fonction de la maximisation du profit de l'action de l'agent et des intérêts d'autres agents internes. Une couche d'entrée du réseau de neurones artificiels peut accepter une entrée directe d'une valeur d'une caractéristique d'un état de représentation, et une table Q doit discrétiser la valeur de la caractéristique pour réduire l'espace d'état.
(ZH)
本发明适用于电力自动化控制技术领域,提供了一种基于智能电网的多智能体深度强化学习代理方法,包括:S1、根据选择的动作得到的奖励计算本次状态下对应的动作标准值对神经网络的参数进行更新;S2、根据消费者和生产者的种类建立"外部竞争,内部合作"的多智能体代理;S3、根据智能体的动作的利润最大化和其他内部智能体的利益设置每个内部智能体的奖励函数。神经网络的输入层可以接受刻画状态的特征的值的直接输入,而 Q-table 需要将特征值离散化来减小状态空间。
Latest bibliographic data on file with the International Bureau