WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2009059480) URL AND ANCHOR TEXT ANALYSIS FOR FOCUSED CRAWLING
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2009/059480    International Application No.:    PCT/CN2007/071031
Publication Date: 14.05.2009 International Filing Date: 08.11.2007
IPC:
G06F 17/30 (2006.01)
Applicants: SHANGHAI HEWLETT-PACKARD CO., LTD [CN/CN]; 112, JianGuo Road, HP Building Beijing 100022 (CN) (For All Designated States Except US).
HEWLETT-PACKARD DEVELOPMENT COMPANY, L.P. [US/US]; 11445 Compaq Center Drive West Houston, Texas 77070 (US) (For All Designated States Except US).
FENG, Shi Cong [CN/CN]; (CN) (For US Only).
XIONG, Yuhong [US/US]; (US) (For US Only).
ZHANG, Li [CN/US]; (US) (For US Only)
Inventors: FENG, Shi Cong; (CN).
XIONG, Yuhong; (US).
ZHANG, Li; (US)
Agent: SHANGHAI PATENT & TRADEMARK LAW OFFICE, LLC; 435 Guiping Road, Xuhui Shanghai 200233 (CN)
Priority Data:
Title (EN) URL AND ANCHOR TEXT ANALYSIS FOR FOCUSED CRAWLING
(FR) ANALYSE D'UNE ADRESSE URL ET D'UN TEXTE D'APPEL POUR EXPLORATION SPÉCIFIQUE
Abstract: front page image
(EN)Systems and methods of URL and anchor text analysis for focused crawling are disclosed In an exemplary embodiment, a method may include training a focused crawler by obtaining a training set of at least URL's or anchor text for a website, computing a score for the training set, and extracting a plurality of features of the training set, and computing a score for each of the plurality of features The features identify key information contained in the website The method may also include executing a trained focused crawler on other websites.
(FR)Système et procédé d'analyse d'adresse URL et de texte d'appel pour recherche ciblée. Dans un mode de réalisation indiqué à titre d'exemple, le procédé peut consister à former un agent d'exploration spécifique par obtention d'au moins une adresse URL ou d'un texte d'appel pour un site Web, à calculer un score pour l'ensemble d'apprentissage, à extraire une pluralité de caractéristiques de cet ensemble d'apprentissage et à calculer une note pour chacune de ces diverses caractéristiques. Ces caractéristiques permettent d'identifier des informations clés contenus dans le site Web. Ce procédé peut également englober la mise en oeuvre un agent formé spécifique dans d'autres sites Web.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, MT, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)