Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2003019421 - PROCEDE ET SYSTEME D'EXTRACTION DE DONNEES A L'AIDE DE REQUETES EN LANGAGE NATUREL

Numéro de publication WO/2003/019421
Date de publication 06.03.2003
N° de la demande internationale PCT/US2002/026942
Date du dépôt international 26.08.2002
CIB
G06F 17/30 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17Équipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
30Recherche documentaire; Structures de bases de données à cet effet
CPC
G06F 16/3334
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
3332Query translation
3334Selection or weighting of terms from queries, including natural language queries
G06F 16/3338
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
3332Query translation
3338Query expansion
G06F 16/3344
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
33Querying
3331Query processing
334Query execution
3344using natural language analysis
Déposants
  • THE SOURCE NETWORK, INC. [US]/[US] (AllExceptUS)
  • PERRO, David, J. [US]/[US] (UsOnly)
  • PERRO, Daniel, J. [US]/[US] (UsOnly)
  • LI, Po, Chuen [--]/[US] (UsOnly)
  • HEDLUND, Ric [US]/[US] (UsOnly)
Inventeurs
  • PERRO, David, J.
  • PERRO, Daniel, J.
  • LI, Po, Chuen
  • HEDLUND, Ric
Mandataires
  • JUNG, Song, K.
Données relatives à la priorité
09/938,87924.08.2001US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) METHOD AND SYSTEM FOR RETRIEVING INFORMATION USING NATURAL LANGUAGE QUERIES
(FR) PROCEDE ET SYSTEME D'EXTRACTION DE DONNEES A L'AIDE DE REQUETES EN LANGAGE NATUREL
Abrégé
(EN)
The present invention provides more accurate natural language searching capabilities by generating contextual phrases that are representative of the key words in a given query (402) and uses those key contextual phrases to locate relevant documents through a search engine or database management system. The present invention generates such contextual phrases by first tagging the text using tagging assumptions and learning methods derived from the comparison of a domain specific and naively annotated corpus. Once tagged, the system then applies matrix rules (406) to the tagged text to create a structural representation of the text. After the generation (408) of the structural representation of the text, the system then applies phrase generation rules (404), which identify the relationships of the values in the matrix and from those relationships builds a concept phrase table that represents a pattern of contextual phrases derived from the query request. The system then formats the contextual phrases (410) for submission to a DBMS or search engine.
(FR)
L'invention permet d'obtenir des fonctions de recherche en langage naturel plus précises grâce à la production de locutions contextuelles représentant les mots-clés d'une requête donnée (402), et à l'utilisation de ces locutions contextuelles clés pour localiser des documents pertinents, au moyen d'un moteur de recherche ou d'un système de gestion de base de données. L'invention produit ces locutions contextuelles en étiquetant d'abord le texte au moyen d'hypothèses d'étiquetage et de procédés d'apprentissage dérivés de la comparaison d'un corpus spécifique d'un domaine et annoté naïvement. Après étiquetage, le système applique des règles (406) de matrice au texte étiqueté pour former une représentation structurale du texte. Après formation (408) de cette représentation structurale, le système applique des règles (404) de formation de locution qui permettent d'identifier des rapports entre les valeurs de la matrice, et de construire à partir de celles-ci une table de locutions de concept qui représente un motif de locutions contextuelles dérivées de la requête. Le système formate ensuite les locutions (410) contextuelles en vue de les soumettre à un système de gestion de base de données ou à un moteur de recherche.
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international