In Bearbeitung

Bitte warten ...

Einstellungen

Einstellungen

Gehe zu Anmeldung

1. WO2020207789 - VERFAHREN UND VORRICHTUNG ZUM ANSTEUERN EINER TECHNISCHEN EINRICHTUNG

Veröffentlichungsnummer WO/2020/207789
Veröffentlichungsdatum 15.10.2020
Internationales Aktenzeichen PCT/EP2020/058206
Internationales Anmeldedatum 24.03.2020
IPC
G05B 13/02 2006.01
GPhysik
05Steuern; Regeln
BSteuer- oder Regelsysteme allgemein; funktionelle Elemente solcher Systeme; Überwachungs- oder Prüfanordnungen für solche Systeme oder Elemente
13Selbstanpassende Steuerungs- oder Regelungssysteme, d.h. Systeme, die sich automatisch entsprechend einem vorgegebenen Kriterium auf eine optimale Arbeitsweise einstellen
02elektrisch
CPC
G05B 13/0265
GPHYSICS
05CONTROLLING; REGULATING
BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
13Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
02electric
0265the criterion being a learning criterion
G05B 13/027
GPHYSICS
05CONTROLLING; REGULATING
BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
13Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
02electric
0265the criterion being a learning criterion
027using neural networks only
Anmelder
  • ROBERT BOSCH GMBH [DE]/[DE]
Erfinder
  • SCHMITT, Felix
  • WOEHLKE, Jan Guenter
Prioritätsdaten
10 2019 205 359.912.04.2019DE
Veröffentlichungssprache Deutsch (DE)
Anmeldesprache Deutsch (DE)
Designierte Staaten
Titel
(DE) VERFAHREN UND VORRICHTUNG ZUM ANSTEUERN EINER TECHNISCHEN EINRICHTUNG
(EN) METHOD AND DEVICE FOR CONTROLLING A TECHNICAL APPARATUS
(FR) PROCÉDÉ ET ARRANGEMENT POUR COMMANDER UN DISPOSITIF TECHNIQUE
Zusammenfassung
(DE)
Computerimplementiertes Verfahren und Vorrichtung (100) zum Ansteuern einer technischen Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei die Vorrichtung (100) einen Eingang (104) für Eingangsdaten (106) von wenigstens einem Sensor (108), einen Ausgang (110) zum Ansteuern der technischen Einrichtung (102) mittels eines Ansteuersignals (112) und eine Recheneinrichtung (114) umfasst, die ausgebildet ist, die technische Einrichtung (102) abhängig von den Eingangsdaten (106) anzusteuern, wobei abhängig von Eingangsdaten (106) ein Zustand wenigstens eines Teils der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische Einrichtung (102) bestimmt wird und wobei die technische Einrichtung (102) dazu angesteuert wird, die wenigstens eine Aktion auszuführen, wobei die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine Ableitung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf eine insbesondere zeitliche Änderung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird.
(EN)
A computer-implemented method and a device (100) for controlling a technical apparatus (102), the technical apparatus (102) being a robot, an at least partially autonomous vehicle, a house control system, a domestic appliance, a DIY appliance, in particular an electric tool, a production machine, a personal assistance appliance, a monitoring system or an access control system, the device (100) comprising: - an input (104) for input data (106) from at least one sensor (108); - an output (110) for controlling the technical apparatus (102) by means of a control signal (112); and - a computing apparatus (114), which is designed to control the technical apparatus (102) in accordance with the input data (106). In accordance with input data (106), a state of at least one part of the technical apparatus (102) or of an environment of the technical apparatus (102) is determined. In accordance with the state and with a strategy for the technical apparatus (102), at least one action is determined. The technical apparatus (102) is controlled so as to perform the at least one action. The strategy, in particular represented by an artificial neural network, is learned by means of a reinforcement learning algorithm in interaction with the technical apparatus (102) or with an environment of the technical apparatus (102) in accordance with at least one feedback signal. The at least one feedback signal is determined in accordance with a target specification. At least one starting state and/or at least one target state for an interaction episode is determined proportionally to a value of a continuous function. The value is determined by application of the continuous function to a performance measure previously determined for the strategy, by application of the continuous function to a derivative of a performance measure previously determined for the strategy, by application of the continuous function to a change, in particular a change over time, of a performance measure previously determined for the strategy, by application of the continuous function to the strategy or by a combination of said applications.
(FR)
L'invention concerne un procédé mis en œuvre par ordinateur et un arrangement (100) pour commander un dispositif technique (102), le dispositif technique (102) étant un robot, un véhicule au moins partiellement autonome, un système de commande domestique, un appareil ménager, un appareil de bricolage, en particulier un outil électrique, une machine de fabrication, un appareil d'assistance personnelle, un système de surveillance ou un système de contrôle d'accès. L'arrangement (100) comporte une entrée (104) pour des données d'entrée (106) provenant d'au moins un capteur (108), une sortie (110) destinée à commander le dispositif technique (102) au moyen d'un signal de commande (112) et un dispositif de calcul (114) qui est conçu pour commander le dispositif technique (102) en fonction des données d'entrée (106). Un état d'au moins une partie du dispositif technique (102) ou d'un environnement du dispositif technique (102) est déterminé en fonction des données d'entrée (106). Au moins une action est déterminée en fonction de l'état et d'une stratégie pour le dispositif technique (102), et le dispositif technique (102) est commandé en vue d'exécuter ladite action. La stratégie, notamment représentée par un réseau neuronal artificiel, est apprise avec un algorithme d'apprentissage par renforcement en interaction avec le dispositif technique (102) ou un environnement du dispositif technique (102) en fonction d'au moins un signal de rétroaction, lequel est déterminé en fonction d'un objectif fixé. Au moins un état de départ et/ou au moins un état cible pour un épisode d'interaction est déterminé proportionnellement à une valeur d'une fonction continue. La valeur est déterminée en appliquant la fonction continue à une mesure de performance déterminée précédemment pour la stratégie, en appliquant la fonction continue à une dérivée d'une mesure de performance déterminée précédemment pour la stratégie, en appliquant la fonction continue à une modification, notamment une modification dans le temps, d'une mesure de performance déterminée précédemment pour la stratégie, en appliquant la fonction continue à la stratégie ou par une combinaison de ces applications.
Aktuellste beim Internationalen Büro vorliegende bibliographische Daten