WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2015117560) WEB PAGE RECOGNIZING METHOD AND APPARATUS
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2015/117560    International Application No.:    PCT/CN2015/072281
Publication Date: 13.08.2015 International Filing Date: 05.02.2015
IPC:
G06F 17/00 (2006.01)
Applicants: TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN/CN]; Room 403, East Block 2, SEG Park Zhenxing Road, Futian District Shenzhen, Guangdong 518000 (CN)
Inventors: HUANG, Yu; (CN)
Agent: BEIJING SAN GAO YONG XIN INTELLECTUAL PROPERTY AGENCY CO., LTD.; A-1-102, He Jing Yuan, Ji Men Li Xueyuan Road, Haidian District Beijing 100088 (CN)
Priority Data:
201410046966.9 10.02.2014 CN
Title (EN) WEB PAGE RECOGNIZING METHOD AND APPARATUS
(FR) PROCÉDÉ ET APPAREIL DE RECONNAISSANCE DE PAGE WEB
Abstract: front page image
(EN)Disclosed is a web page recognizing method, which includes: obtaining a weight of each segmented word of a web page to be recognized; acquiring, according to the weight of each segmented word of a web page to be recognized, weights of the web page to be recognized in two predetermined web page categories through calculation by using a logistic regression model established in advance; and taking a web page category having a greater weight as a category of the web page to be recognized. Also disclosed is a web page recognizing apparatus. The method recognizes a web page more accurately, especially for a web page in which key words are difficult to distinguis-h.
(FR)L'invention concerne un procédé de reconnaissance de page Web consistant : à obtenir un poids de chaque mot segmenté d'une page Web à reconnaître ; à acquérir, selon le poids de chaque mot segmenté d'une page Web à reconnaître, des poids de la page Web à reconnaître dans deux catégories de pages Web prédéterminées par l'intermédiaire d'un calcul, à l'aide d'un modèle de régression logistique établi à l'avance ; et à prendre une catégorie de page Web ayant un poids plus important en tant que catégorie de la page Web à reconnaître. L'invention concerne également un appareil de reconnaissance de page Web. Le procédé reconnaît une page Web de manière plus précise, en particulier pour une page Web dans laquelle des mots-clés sont difficiles à distinguer.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)