Recherche dans les collections de brevets nationales et internationales

1. (WO2018098797) PROCÉDÉ ET DISPOSITIF D'AJUSTEMENT DE LA LIMITE D'ESPACE D'ÉTAT DANS UN APPRENTISSAGE PAR RENFORCEMENT

Pub. No.:    WO/2018/098797    International Application No.:    PCT/CN2016/108312
Publication Date: Fri Jun 08 01:59:59 CEST 2018 International Filing Date: Sat Dec 03 00:59:59 CET 2016
IPC: H04L 1/00
Applicants: HUAWEI TECHNOLOGIES CO., LTD.
华为技术有限公司
Inventors: HOROVITZ, Shay
霍罗威茨夏伊
ARIAN, Yair
阿里安亚伊
ZHENG, Miao
郑淼
Title: PROCÉDÉ ET DISPOSITIF D'AJUSTEMENT DE LA LIMITE D'ESPACE D'ÉTAT DANS UN APPRENTISSAGE PAR RENFORCEMENT
Abstract:
L'invention concerne un procédé d'ajustement d'une limite d'état dans un apprentissage par renforcement (Q-learning) qui peut améliorer les performances d'un algorithme d'apprentissage par renforcement. Le procédé comprend les étapes suivantes : en fonction d'un premier état d'un système dans une première période, détermination d'un segment dans lequel se trouve le premier état, et détermination d'une première action ayant la valeur Q la plus élevée dans les multiples actions correspondant au segment, la valeur Q de chaque action étant utilisée pour représenter une valeur de retour attendue pouvant être obtenue par le système après l'accomplissement de chaque action (210) ; accomplissement de la première action, et calcul d'une valeur de retour réelle obtenue par le système après l'accomplissement de la première action, dans une deuxième période qui suit l'accomplissement de la première action (220) ; et détermination du fait de savoir s'il existe une deuxième action dont la valeur Q est supérieure à la valeur de retour réelle dans les multiples actions et, dans l'affirmative, ajustement de la limite d'espace du segment (230).