WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2008121144) EXTRACTION D'INFORMATIONS OUVERTE DE LA TOILE
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2008/121144    N° de la demande internationale :    PCT/US2007/065783
Date de publication : 09.10.2008 Date de dépôt international : 02.04.2007
Demande présentée en vertu du Chapitre 2 :    21.07.2008    
CIB :
G06E 1/00 (2006.01)
Déposants : UNIVERSITY OF WASHINGTON [US/US]; 4311 11th Avenue NE, Suite 500, Seattle, Washington 98105-4608 (US) (Tous Sauf US).
CAFARELLA, Michael J. [US/US]; (US) (US Seulement).
BANKO, Michele [US/US]; (US) (US Seulement).
ETZIONI, Oren [US/US]; (US) (US Seulement)
Inventeurs : CAFARELLA, Michael J.; (US).
BANKO, Michele; (US).
ETZIONI, Oren; (US)
Mandataire : ANDERSON, Ronald; 600 108th Avenue NE, Suite 507, Bellevue, Washington 98004 (US)
Données relatives à la priorité :
Titre (EN) OPEN INFORMATION EXTRACTION FROM THE WEB
(FR) EXTRACTION D'INFORMATIONS OUVERTE DE LA TOILE
Abrégé : front page image
(EN)To implement open information extraction, a new extraction paradigm has been developed in which a system makes a single data-driven pass over a corpus of text, extracting a large set of relational tuples without requiring any human input. Using training data, a Self-Supervised Learner employs a parser and heuristics to determine criteria that will be used by an extraction classifier (or other ranking model) for evaluating the trustworthiness of candidate tuples that have been extracted from the corpus of text, by applying heuristics to the corpus of text. The classifier retains tuples with a sufficiently high probability of being trustworthy. A redundancy-based assessor assigns a probability to each retained tuple to indicate a likelihood that the retained tuple is an actual instance of a relationship between a plurality of objects comprising the retained tuple. The retained tuples comprise an extraction graph that can be queried for information.
(FR)L'invention concerne un nouveau paradigme d'extraction, pour mettre en œuvre une extraction d'informations ouverte, dans lequel un système effectue une seule passe commandée par données sur un corps de texte, en extrayant un grand jeu d'uplets relationnels sans nécessiter une intervention humaine. En utilisant des données d'apprentissage, un apprenti autosupervisé emploie un analyseur syntaxique et des heuristiques pour déterminer des critères qui sont utilisés par un classificateur d'extraction (ou un autre modèle de classification) pour évaluer la loyauté des uplets candidats qui ont été extraits du corps du texte, en appliquant des heuristiques au corps de texte. Les classificateurs conservent les uplets ayant une probabilité suffisamment élevée d'être dignes de confiance. Un évaluateur à base de redondance attribue une probabilité à chaque uplet retenu pour indiquer une vraisemblance de que l'uplet retenu est un cas effectif d'une relation entre une pluralité d'objets comprenant l'uplet retenu. Les uplets retenus comportent un graphique d'extraction qui peut être questionné pour informations.
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, MT, NL, PL, PT, RO, SE, SI, SK, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)