(EN) Implementations disclosed herein relate to utilizing at least one existing manually engineered policy, for a robotic task, in training an RL policy model that can be used to at least selectively replace a portion of the engineered policy. The RL policy model can be trained for replacing a portion of a robotic task and can be trained based on data from episodes of attempting performance of the robotic task, including episodes in which the portion is performed based on the engineered policy and/or other portion(s) are performed based on the engineered policy. Once trained, the RL policy model can be used, at least selectively and in lieu of utilization of the engineered policy, to perform the portion of robotic task, while other portion(s) of the robotic task are performed utilizing the engineered policy and/or other similarly trained (but distinct) RL policy model(s).
(FR) Selon certains modes de réalisation, la présente divulgation se rapporte à l'utilisation d'au moins une politique existante modifiée manuellement, d'une tâche robotique, lors de l'entraînement d'un modèle de politique de RL qui peut être utilisé pour remplacer au moins sélectivement une partie de la politique modifiée. Le modèle de politique de RL peut être entraîné pour remplacer une partie d'une tâche robotique et peut être entraîné sur la base de données issues d'épisodes de tentative d'exécution de la tâche robotique, comprenant des épisodes lors desquels la partie est mise en œuvre sur la base de la politique modifiée et/ou une ou plusieurs autres parties sont mises en œuvre sur la base de la politique modifiée. Une fois entraîné, le modèle de politique de RL peut être utilisé, au moins sélectivement et à la place de l'utilisation de la politique modifiée, pour mettre en œuvre la partie de tâche robotique, tandis qu'une ou plusieurs autres parties de la tâche robotique sont mises en œuvre à l'aide de la politique modifiée et/ou d'un ou de plusieurs autres modèles de politique de RL entraînés de manière similaire (mais distincts).