Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022164780 - EPISODE-BASED ENGINEERED POLICY MODEL FOR A ROBOTIC TASK USING REINFORCEMENT LEARNING

Publication Number WO/2022/164780
Publication Date 04.08.2022
International Application No. PCT/US2022/013635
International Filing Date 25.01.2022
IPC
G06N 3/00 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
B25J 9/16 2006.1
BPERFORMING OPERATIONS; TRANSPORTING
25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; HANDLES FOR HAND IMPLEMENTS; WORKSHOP EQUIPMENT; MANIPULATORS
JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
9Programme-controlled manipulators
16Programme controls
G06N 5/00 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
5Computer systems using knowledge-based models
CPC
B25J 9/163
BPERFORMING OPERATIONS; TRANSPORTING
25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
9Programme-controlled manipulators
16Programme controls
1628characterised by the control loop
163learning, adaptive, model based, rule based expert control
G05B 2219/39298
GPHYSICS
05CONTROLLING; REGULATING
BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
2219Program-control systems
30Nc systems
39Robotics, robotics to robotics hand
39298Trajectory learning
G06N 20/00
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
G06N 3/008
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
004Artificial life, i.e. computers simulating life
008based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. robots replicating pets or humans in their appearance or behavior
G06N 5/01
G06N 5/04
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
5Computer systems using knowledge-based models
04Inference methods or devices
Applicants
  • X DEVELOPMENT LLC [US]/[US]
Inventors
  • LI, Adrian
  • HOLSON, Benjamin
  • HERZOG, Alexander
  • KALAKRISHNAN, Mrinal
Agents
  • HIGDON, Scott
  • MIDDLETON REUTLINGER
  • PURCELL, John
  • SHUMAKER, Brantley
  • SALAZAR, John
Priority Data
17/161,84529.01.2021US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) EPISODE-BASED ENGINEERED POLICY MODEL FOR A ROBOTIC TASK USING REINFORCEMENT LEARNING
(FR) MODÈLE DE POLITIQUE MODIFIÉE SUR LA BASE D'ÉPISODES DE TÂCHE ROBOTIQUE À L'AIDE D'UN APPRENTISSAGE PAR RENFORCEMENT
Abstract
(EN) Implementations disclosed herein relate to utilizing at least one existing manually engineered policy, for a robotic task, in training an RL policy model that can be used to at least selectively replace a portion of the engineered policy. The RL policy model can be trained for replacing a portion of a robotic task and can be trained based on data from episodes of attempting performance of the robotic task, including episodes in which the portion is performed based on the engineered policy and/or other portion(s) are performed based on the engineered policy. Once trained, the RL policy model can be used, at least selectively and in lieu of utilization of the engineered policy, to perform the portion of robotic task, while other portion(s) of the robotic task are performed utilizing the engineered policy and/or other similarly trained (but distinct) RL policy model(s).
(FR) Selon certains modes de réalisation, la présente divulgation se rapporte à l'utilisation d'au moins une politique existante modifiée manuellement, d'une tâche robotique, lors de l'entraînement d'un modèle de politique de RL qui peut être utilisé pour remplacer au moins sélectivement une partie de la politique modifiée. Le modèle de politique de RL peut être entraîné pour remplacer une partie d'une tâche robotique et peut être entraîné sur la base de données issues d'épisodes de tentative d'exécution de la tâche robotique, comprenant des épisodes lors desquels la partie est mise en œuvre sur la base de la politique modifiée et/ou une ou plusieurs autres parties sont mises en œuvre sur la base de la politique modifiée. Une fois entraîné, le modèle de politique de RL peut être utilisé, au moins sélectivement et à la place de l'utilisation de la politique modifiée, pour mettre en œuvre la partie de tâche robotique, tandis qu'une ou plusieurs autres parties de la tâche robotique sont mises en œuvre à l'aide de la politique modifiée et/ou d'un ou de plusieurs autres modèles de politique de RL entraînés de manière similaire (mais distincts).
Related patent documents
Latest bibliographic data on file with the International Bureau