WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2002006993) SYSTEME ET PROCEDES DE RECHERCHE DE RESSOURCES WEB
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2002/006993    N° de la demande internationale :    PCT/US2001/022350
Date de publication : 24.01.2002 Date de dépôt international : 17.07.2001
Demande présentée en vertu du Chapitre 2 :    11.02.2002    
CIB :
G06F 17/30 (2006.01)
Déposants : ASYMMETRY, INC. [US/US]; 1972 Massachusetts Avenue Cambridge, MA 02140 (US)
Inventeurs : NEVEITT, William, T.; (US)
Mandataire : TERZIAN, Berj, A.; Pennie & Edmonds LLP 1155 Avenue of the Americas New York, NY 10036 (US)
Données relatives à la priorité :
60/219,146 17.07.2000 US
Titre (EN) SYSTEM AND METHODS FOR WEB RESOURCE DISCOVERY
(FR) SYSTEME ET PROCEDES DE RECHERCHE DE RESSOURCES WEB
Abrégé : front page image
(EN)The subject invention comprises a system for data mining, preferably comprising a sample generator component (110); a filtering system component (130); and a buffering component. The sample generator component is preferably configured to communicate with a plurality of search engines (120) and to generate queries based on a sample repository of positive and negative sample documents, and comprises a feature extraction algorithm. The subject invention also comprises a method for data mining; comprising the steps of (a) identifying candidate sample documents based on a category (125); (b) filtering candidate documents by applying a categorization model (135); (c) buffering the filtered documents (145); (d) labelling the buffered documents as positive or negative examples of the category (155); (e) retraining the categorization model, based on the labeled set of positive and negative example documents (165); (f) repeating steps (b) and (e) until all candidate documents are processed; and (g) storing all labeled documents in a database.
(FR)L'invention concerne un système d'exploration de données, qui comprend de préférence un composant de génération d'échantillons (110), un composant de système de filtrage (130) et un composant de mise en mémoire tampon. Le composant de génération d'échantillons est de préférence conçu pour communiquer avec plusieurs moteurs de recherche (120) et pour générer des demandes sur la base d'un référentiel d'échantillons de documents types positifs et négatifs, et comporte un algorithme d'extraction de caractéristiques. L'invention concerne également un procédé d'exploration de données qui consiste a) à identifier des documents types candidats basés sur une catégorie (125), b) à filtrer les documents candidats par application d'un modèle de catégorisation (135), c) à mettre en mémoire tampon les documents filtrés (145), d) à étiqueter les documents mis en mémoire tampon comme exemples positifs ou négatifs de la catégorie (155), e) à recycler le modèle de catégorisation sur la base de l'ensemble étiqueté de documents exemples positifs et négatifs (165), f) à répéter les étapes b) et e) jusqu'à ce que tous les documents candidats soient traités, et g) à stocker tous les documents étiquetés dans une base de données.
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, UZ, VN, YU, ZA, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)