Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2018164716) PROCESSEUR DE MISE EN ŒUVRE D’OPÉRATIONS D’APPRENTISSAGE PAR RENFORCEMENT
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2018/164716 N° de la demande internationale : PCT/US2017/053243
Date de publication : 13.09.2018 Date de dépôt international : 25.09.2017
CIB :
G06N 99/00 (2010.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
N
SYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
99
Matière non prévue dans les autres groupes de la présente sous-classe
Déposants :
ALPHAICS CORPORATION [US/US]; 304 Warwick Drive Reading, PA 19610, US
Inventeurs :
NAGARAJA, Nagendra; IN
Mandataire :
CHOOBIN, Barry; US
Données relatives à la priorité :
15/455,12609.03.2017US
Titre (EN) PROCESSOR FOR IMPLEMENTING REINFORCEMENT LEARNING OPERATIONS
(FR) PROCESSEUR DE MISE EN ŒUVRE D’OPÉRATIONS D’APPRENTISSAGE PAR RENFORCEMENT
Abrégé :
(EN) A reinforcement learning processor specifically configured to execute reinforcement learning operations by the way of implementing an application-specific instruction set is envisaged. The application-specific instruction set incorporates 'Single Instruction Multiple Agents (SiMA)' instructions. SiMA type instructions are specifically designed to be implemented simultaneously on a plurality of reinforcement learning agents which interact with corresponding reinforcement learning environments. The SiMA type instructions are specifically configured to receive either a reinforcement learning agent ID or a reinforcement learning environment ID as the operand. The reinforcement learning processor uses neural network data paths to communicate with a neural network, which in turn uses the actions, state-value functions, Q-values and reward values generated by the reinforcement learning processor to approximate an optimal state-value function as well as an optimal reward function.
(FR) La présente invention concerne un processeur d’apprentissage par renforcement configuré spécifiquement pour exécuter des opérations d’apprentissage par renforcement au moyen d’une mise en œuvre d’un ensemble d’instructions spécifiques à une application. L’ensemble d’instructions spécifiques à une application incorpore des instructions SiMA (agents multiples à instruction unique). Des instructions de type SiMA sont spécifiquement conçues pour être mises en œuvre simultanément sur une pluralité d’agents d’apprentissage par renforcement qui interagissent avec des environnements d’apprentissage par renforcement correspondants. Les instructions de type SiMA sont spécifiquement configurées pour recevoir en tant qu’opérande soit un identifiant d’agent d’apprentissage par renforcement, soit un identifiant d’environnement d’apprentissage par renforcement. Le processeur d’apprentissage par renforcement utilise des chemins de données de réseau neuronal pour communiquer avec un réseau neuronal qui à son tour utilise les actions, des fonctions de valeur d’état, des valeurs Q et des valeurs de récompense générées par le processeur d’apprentissage par renforcement pour approcher fonction de valeur d’état optimale ainsi qu’une valeur de récompense optimale.
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)