(EN) Hybrid use of dual policies is provided to improve a communication system. In a multiple access scenario, when an inactive user equipment (UE) transitions to an active state, it may be become a burden to a radio cell on which it was previously camping. In some embodiments, hybrid load balancing is provided using a hierarchical machine learning paradigm based on reinforcement learning in which an LSTM generates a goal for one policy influencing cell reselection so that another policy influencing handover over active UEs can be assisted. The communication system as influenced by the policies is modeled as a Markov decision process (MDP). The policies controlling the active UEs and inactive UEs are coupled, and measureable system characteristics are improved. In some embodiments, policy actions depend at least in part on energy saving.
(FR) L'utilisation hybride de politiques doubles afin d'améliorer un système de communication est divulguée. Dans un scénario d'accès multiple, lorsqu'un équipement utilisateur (UE) inactif passe à un état actif, il peut devenir une charge sur une cellule radio sur laquelle il a été préalablement mis en attente. Dans certains modes de réalisation, un équilibrage de charge hybride est fourni à au moyen d'un paradigme d'apprentissage automatique hiérarchique basé sur un apprentissage par renforcement dans lequel un LSTM génère un objectif pour une politique influençant la resélection de cellule de sorte qu'une autre politique influençant un transfert intercellulaire sur des UE actifs puisse être assistée. Le système de communication tel qu'influencé par les politiques est modélisé sous la forme d'un processus de décision de Markov (MDP). Les politiques commandant les UE actifs et les UE inactifs sont couplées, et des caractéristiques de système mesurables sont améliorées. Dans certains modes de réalisation, des actions de politique dépendent au moins en partie de l'économie d'énergie.