WIPO logo
Mobile | Deutsch | English | Español | Français | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

国際・国内特許データベース検索
World Intellectual Property Organization
検索
 
閲覧
 
翻訳
 
オプション
 
最新情報
 
ログイン
 
ヘルプ
 
自動翻訳
1. (WO2007029516) 強化学習の価値関数表現方法およびこれを用いた装置
国際事務局に記録されている最新の書誌情報   

Translation翻訳: 原文 > 日本語
国際公開番号:    WO/2007/029516    国際出願番号:    PCT/JP2006/316659
国際公開日: 15.03.2007 国際出願日: 18.08.2006
IPC:
G06N 3/00 (2006.01), G05B 13/02 (2006.01)
出願人: NATIONAL UNIVERSITY CORPORATION YOKOHAMA NATIONAL UNIVERSITY [JP/JP]; 79-1, Tokiwadai, Hodogaya-ku, Yokohama-shi, Kanagawa 2408501 (JP) (米国を除く全ての指定国).
HAMAGAMI, Tomoki [JP/JP]; (JP) (米国のみ).
SHIBUYA, Takesi [JP/JP]; (JP) (米国のみ)
発明者: HAMAGAMI, Tomoki; (JP).
SHIBUYA, Takesi; (JP)
代理人: SATOH, Takahisa; Sohshin International Patent Office Toranomon Denki Building 2F 8-1, Toranomon 2-chome Minato-ku, Tokyo 105-001 (JP)
優先権情報:
2005-254763 02.09.2005 JP
発明の名称: (EN) REINFORCEMENT LEARNING VALUE FUNCTION EXPRESSING METHOD AND DEVICE USING THIS
(FR) MÉTHODE D'EXPRESSION DE FONCTION DE VALEUR D'APPRENTISSAGE DE RENFORCEMENT ET DISPOSITIF L'UTILISANT
(JA) 強化学習の価値関数表現方法およびこれを用いた装置
要約: front page image
(EN)The reinforcement learning is one of intelligent motions applied to an autonomous mobile robot or the like and a system having an excellent aspect enabling motions in an unknown environment. However, the method involves a basic problem, i.e., the incomplete perception problem. Though various solutions have been proposed, there is no decisive one, and the systems are complex. A simple effective solution has been desired. A complex value function for defining a state action value with complex numbers is introduced. Time-series information is taken into the phase part of the complex value. With this, time-series information is taken into the value function without using any complex algorithm, and the incomplete perception problem is effectively solved with a simple installation.
(FR)L'apprentissage de renforcement est l'un des mouvements intelligents appliqués à un robot mobile autonome ou similaire et un système ayant une excellente capacité de permettre des mouvements dans un environnement inconnu. Toutefois la méthode est grevée d'un problème de base, en l'occurrence le problème de la perception incomplète. Bien que des solutions variées aient été proposées, aucune n'est décisive et les systèmes sont complexes. Selon l'invention une solution efficace simple était souhaitée. Une fonction de valeur complexe pour définir une valeur d'action d'état par des nombres complexes est introduite. Des informations de séries temporelles sont prises dans la partie phase de la valeur complexe. Grâce à cela, des informations de séries temporelles sont prises dans la fonction de valeur sans utiliser d'algorithme compliqué et le problème de la perception incomplète est résolu efficacement par une installation simple.
(JA)強化学習法は自律移動ロボット等に応用される知的動作の一つであり、未知の環境での動作が可能であるなど優れた面を持つシステムであるが、不完全知覚問題という基礎的な課題を持っている。いろいろな解決策が提案されているが、決め手はなく、システムも複雑なものになり兼ねない。簡単で効果的な解決方法が望まれている。状態行動価値を複素数で定義する複素価値関数を導入する。時系列情報は複素数値の位相部分に取り込むことにする。これにより、複雑なアルゴリズ厶を用いることなく時系列情報が価値関数に取り込まれ、簡便な実装により不完全知覚問題が有効に解決される。
指定国: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HN, HR, HU, ID, IL, IN, IS, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
アフリカ広域知的所有権機関(ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
ユーラシア特許庁(EAPO) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
欧州特許庁(EPO) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
アフリカ知的所有権機関(OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
国際公開言語: Japanese (JA)
国際出願言語: Japanese (JA)