WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO1999034307) SERVEUR D'EXTRACTION
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/1999/034307    N° de la demande internationale :    PCT/US1998/027664
Date de publication : 08.07.1999 Date de dépôt international : 28.12.1998
CIB :
G06F 17/30 (2006.01)
Déposants : INFODREAM CORPORATION [US/US]; 2340A Walsh Avenue Santa Clara, CA 95051 (US) (Tous Sauf US).
ANDLEIGH, Prabhat, K. [US/US]; (US) (US Seulement).
PAPPU, Nagaraju [IN/US]; (US) (US Seulement).
KALIDINDI, Vasudeva, V. [IN/US]; (US) (US Seulement)
Inventeurs : ANDLEIGH, Prabhat, K.; (US).
PAPPU, Nagaraju; (US).
KALIDINDI, Vasudeva, V.; (US)
Mandataire : ARRIOLA-KERN, Trinidad; Fenwick & West LLP Two Palo Alto Square Palo Alto, CA 94306 (US)
Données relatives à la priorité :
60/068,920 29.12.1997 US
Titre (EN) EXTRACTION SERVER FOR UNSTRUCTURED DOCUMENTS
(FR) SERVEUR D'EXTRACTION
Abrégé : front page image
(EN)A system for analyzing and extracting words and word groups from an electronic document (104) and for storing the extracted words and word groups into predefined fields or tables in a target database (110) comprises a content analysis and semantic network engine (216) for analyzing and extracting words and word groups from the electronic document and a heuristics engine (212) coupled to the content analysis and semantic network engine (216), for applying a set of heuristics to the words and word groups in the electronic document. The content analysis and semantic network engine (216) further comprises a thesaurus (400) for linking together terms (402) and concepts (404) and for defining relationships between and among the terms (402) and concepts (404), a semantic network (220) coupled to the thesaurus (400), for organizing the terms (402) and concepts (404) in the thesaurus (400), meta-concepts (502), and categories (504) in a hierarchical structure, and section processors (218) for analyzing a section in the electronic document (104) and applying a set of heuristics to each section in the electronic document (104). The system further comprises a document pre-processor (210) for performing an initial analysis on the electronic document (104), a morphological analysis engine (214) coupled to the heuristics engine (212) for performing a morphological analysis and tagging of words and word groups in the electronic document (104), and a database interface (222) for providing an interface between the content analysis and semantic network engine (216) and the target database (110).
(FR)L'invention porte sur un système d'analyse et d'extraction de mots et groupes de mots d'un document électronique (104) et de stockage desdits mots et groupes de mots dans des champs ou tables prédéfinis d'une base de données cible (110). Ledit système comporte un automate d'analyse du contenu et à réseaux sémantiques (216) analysant puis extrayant les mots et groupes de mots du document, et un automate heuristique (212) d'application d'heuristiques de mots ou de groupes de mots extraits lui étant annexé. L'automate d'analyse du contenu et à réseaux sémantiques (216) comporte en outre: un thesaurus (400) en reliant les termes (402) aux concepts (404) et définissant les relations entre termes (402) et concepts (404); un réseau sémantique (220) annexe du thesaurus (400) qui organise les termes (402) et concepts (404) du thesaurus (400), et les métaconcepts (502) et catégories (504) selon une structure hiérarchisée; et des processeurs de sections (218) analysant chacun une section du document (104) et appliquant un jeu d'heuristiques à chacune d'elles. Le système comporte de plus un préprocesseur (210) effectuant une préanalyse du document (104), un automate d'analyse morphologique (214) relié à l'automate heuristique (212) effectuant l'analyse morphologique et marquant certains mots et groupes de mots du document électronique (104) et une interface de base de données (222) placée entre l'automate d'analyse du contenu et à réseaux sémantiques (216) et la base de données cible (110).
États désignés : AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, CH, CN, CU, CZ, DE, DK, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, UA, UG, US, UZ, VN, YU, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (GH, GM, KE, LS, MW, SD, SZ, UG, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)