(EN) A method performed by a central node for controlling an exploration strategy associated to Reinforcement Learning, RL, in one or more RL modules in a distributed node in a Radio Access Network, RAN, is provided. The central node evaluates (401) a cost of actions performed for explorations in the one or more RL modules, and a performance of the one or more RL modules. Based on the evaluation, the central node determines (402) one or more exploration parameters associated to the exploration strategy. The central node controls the exploration strategy by configuring (403) the one or more RL modules with the determined one or more exploration parameters to update its exploration strategy, enforcing the respective one or more RL modules to act according to the updated exploration strategy to produce data samples for the one or more RL modules in the distributed node.
(FR) Procédé mis en œuvre par un nœud central pour commander une stratégie d'exploration associée à un apprentissage par renforcement, RL, dans un ou plusieurs modules RL dans un nœud distribué dans un réseau d'accès radio, RAN. Le nœud central évalue (401) un coût d'actions effectuées pour des explorations dans le ou les modules RL et une performance du ou des modules RL. Sur la base de l'évaluation, le nœud central détermine (402) un ou plusieurs paramètres d'exploration associés à la stratégie d'exploration. Le nœud central commande la stratégie d'exploration par configuration (403) du ou des modules RL avec le ou les paramètres d'exploration déterminés pour mettre à jour sa stratégie d'exploration, exécutant le ou les modules RL respectifs pour agir selon la stratégie d'exploration mise à jour pour produire des échantillons de données destinés au ou aux modules RL dans le nœud distribué.