WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2002021291) PROCEDE ET DISPOSITIF POUR L'EXTRACTION DE DONNEES STRUCTUREES A PARTIR DE PAGES HTML
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2002/021291    N° de la demande internationale :    PCT/US2000/024614
Date de publication : 14.03.2002 Date de dépôt international : 08.09.2000
Demande présentée en vertu du Chapitre 2 :    08.04.2002    
CIB :
G06F 17/30 (2006.01)
Déposants : SEDGHI, Ali, R. [US/US]; (US)
Inventeurs : SEDGHI, Ali, R.; (US)
Mandataire : LITMAN, Richard, C.; Litman Law Offices, Ltd., P.O. Box 15035, Crystal City Station, Arlington, VA 22215-0035 (US)
Données relatives à la priorité :
Titre (EN) METHOD AND APPARATUS FOR EXTRACTING STRUCTURED DATA FROM HTML PAGES
(FR) PROCEDE ET DISPOSITIF POUR L'EXTRACTION DE DONNEES STRUCTUREES A PARTIR DE PAGES HTML
Abrégé : front page image
(EN)A method and apparatus for extracting structured data from HTML pages whereby an HTML file belonging to a pre-determined class of HTML files can be transformed into an instance tree (142). Other than the HTML file, there are two other inputs to the extraction procedure: a set of constraints (134), and a structure template (140). The steps in the process include: parsing the HTML file, thereby creating a parse tree (126); annotating the parse tree, thereby creating an annotated parse tree (130); creating an array of nodes from the annotated parse tree using a set of constraints (134); and generating an instance tree (142) from the array of nodes using the structure template (140). The instance tree (142) encodes, in a form that may be used by other computer programs, all the relevant information in the HTML file as prescribed by the set of constraints (134) and makes explicit the structure of this information.
(FR)L'invention concerne un procédé et un dispositif pour l'extraction de données structurées à partir de pages HTML. Un fichier HTML appartenant à une classe préétablie de fichiers HTML peut être transformé en arbre d'instance (142). Il convient de spécifier deux autres entrées relatives à la procédure: une série de contraintes (134), et un gabarit de structure (140). Les étapes du procédé sont les suivantes: analyse syntaxique du fichier HTML, débouchant sur un arbre d'analyse syntaxique (126), annotation de cet arbre débouchant sur un arbre annoté (130), création d'une série de noeuds à partir de l'arbre annoté, par le biais d'une série de contraintes (134), et établissement d'un arbre d'instance (142) à partir de la série de noeuds, en utilisant le gabarit de structure (140). L'arbre d'instance (142) permet de coder, sous une forme susceptible d'être utilisée par d'autres programmes informatiques, l'ensemble des informations pertinentes du fichier HTML, selon la série de contraintes (134), et de rendre explicite cette structure d'information.
États désignés : AE, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, CH, CN, CR, CU, CZ, DE, DK, DM, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)