このアプリケーションの一部のコンテンツは現時点では利用できません。
このような状況が続く場合は、にお問い合わせくださいフィードバック & お問い合わせ
1. (WO2019021401) 強化学習装置、強化学習方法、および強化学習プログラム記録媒体
国際事務局に記録されている最新の書誌情報    第三者情報を提供

国際公開番号: WO/2019/021401 国際出願番号: PCT/JP2017/027094
国際公開日: 31.01.2019 国際出願日: 26.07.2017
IPC:
G06N 99/00 (2010.01)
G 物理学
06
計算;計数
N
特定の計算モデルに基づくコンピュータ・システム
99
このサブクラスの他のグループに分類されない主題事項
出願人:
日本電気株式会社 NEC CORPORATION [JP/JP]; 東京都港区芝五丁目7番1号 7-1, Shiba 5-chome, Minato-ku, Tokyo 1088001, JP
発明者:
大西 貴士 ONISHI, Takashi; JP
土田 正明 TSUCHIDA, Masaaki; JP
代理人:
池田 憲保 IKEDA, Noriyasu; JP
佐々木 敬 SASAKI, Takashi; JP
優先権情報:
発明の名称: (EN) REINFORCEMENT LEARNING DEVICE, REINFORCEMENT LEARNING METHOD, AND REINFORCEMENT LEARNING PROGRAM RECORDING MEDIUM
(FR) DISPOSITIF D'APPRENTISSAGE PAR RENFORCEMENT, PROCÉDÉ D'APPRENTISSAGE PAR RENFORCEMENT ET SUPPORT D'ENREGISTREMENT DE PROGRAMME D'APPRENTISSAGE PAR RENFORCEMENT
(JA) 強化学習装置、強化学習方法、および強化学習プログラム記録媒体
要約:
(EN) This reinforcement learning device includes: a high-level planner which determines specific subgoals from among N (where N is an integer at least equal to 3) subgoals provided between a starting point and a goal; and a low-level planner which determines actual actions in accordance with the specific subgoals. The high-level planner includes a subgoal determination unit which uses task knowledge to select M (where M is an integer less than N and at least equal to 1) subgoal candidates from among the N subgoals, and determine the specific subgoals preferentially from among the M subgoal candidates. The task knowledge is knowledge determined on the basis of task rules that are to be satisfied when going from the starting point to the goal.
(FR) L'invention concerne un dispositif d'apprentissage par renforcement qui comprend : un planificateur de niveau haut qui détermine des sous-objectifs spécifiques parmi N (où N est un nombre entier au moins égal à 3) sous-objectifs fournis entre un point de départ et un objectif ; et un planificateur de bas niveau qui détermine des actions réelles en fonction des sous-objectifs spécifiques. Le planificateur de niveau haut comprend une unité de détermination de sous-objectif qui utilise une connaissance de tâche pour sélectionner M (où M est un nombre entier inférieur à N et au moins égal à 1) des sous-objectifs candidats parmi les N sous-objectifs, et pour déterminer les sous-objectifs spécifiques de préférence parmi les M sous-objectifs candidats. La connaissance de tâche est une connaissance déterminée sur la base de règles de tâche qui doivent être satisfaites lors du passage du point de départ à l'objectif.
(JA) 強化学習装置は、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を含む。ハイレベルプランナは、タスク知識を用いて、N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を含む。タスク知識は、開始点からゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である。
front page image
指定国: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
アフリカ広域知的所有権機関(ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
ユーラシア特許庁(EAPO) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
欧州特許庁(EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
アフリカ知的所有権機関(OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
国際公開言語: 日本語 (JA)
国際出願言語: 日本語 (JA)