WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2008000172) PROCÉDÉ ET DISPOSITIF POUR L'EXTRACTION D'INFORMATIONS WEB
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2008/000172    N° de la demande internationale :    PCT/CN2007/070096
Date de publication : 03.01.2008 Date de dépôt international : 11.06.2007
CIB :
G06F 17/30 (2006.01), G06F 17/21 (2006.01)
Déposants : TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN/CN]; 4/F. East 2 Block. SEG Park. Zhenxing Rd., Futian District Shenzhen, Guangdong 518044 (CN) (Tous Sauf US).
CHENG, Kai [CN/CN]; (CN) (US Seulement)
Inventeurs : CHENG, Kai; (CN)
Mandataire : DEQI INTELLECTUAL PROPERTY LAW CORPORATION; 7/F, Xueyuan International Tower No. 1 Zhichun Road, Haidian District Beijing 100083 (CN)
Données relatives à la priorité :
200610086427.3 19.06.2006 CN
Titre (EN) METHOD AND DEVICE FOR EXTRACTING WEB INFORMATION
(FR) PROCÉDÉ ET DISPOSITIF POUR L'EXTRACTION D'INFORMATIONS WEB
(ZH) 一种提取Web信息的方法及装置
Abrégé : front page image
(EN)A method for extracting web information comprises: according to the sequence of the HTML text corresponding to a web page, selecting some HTML tags as tag ruler elements to generate a tag ruler and storing it; matching the HTML text in sequence according to the HTML tag elements of the tag ruler, and dividing the web information according to the matched HTML tags, and storing the divided web information segment and the location information of the HTML tags containing the information segment in the text; determining the locations of the HTML tags containing the web information in the HTML text according to the web information required by a user, retrieving and extracting the stored and divided corresponding web information segment. A device for extracting the web information is also provided. Applying the solution, the web information required by the user can be obtained in the web pages quickly and effectively.
(FR)Selon la présente invention, un procédé d'extraction d'informations Web consiste, suivant la séquence du texte HTML correspondant à une page Web, à sélectionner certaines étiquettes HTML en tant qu'éléments de règle d'étiquette pour produire une telle règle et à l'enregistrer, à faire correspondre le texte HTML dans une séquence suivant les éléments d'étiquette HTML de ladite règle et à diviser les informations Web selon les étiquettes HTML correspondantes, à enregistrer le segment d'informations Web divisé et les informations de localisation des étiquettes HTML contenant le segment d'informations dans le texte, à déterminer les emplacementsdes étiquettes HTML contenant les informations Web dans le texte HTML suivant les informations Web requises par un utilisateur, à récupérer et extraire le segment d'informations Web correspondant, enregistré et divisé. Cette invention a aussi pour objet un dispositif d'extraction des informations Web. L'application de la solution permet d'obtenir rapidement et efficacement dans les pages Web les informations Web requises par l'utilisateur.
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, MT, NL, PL, PT, RO, SE, SI, SK, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)