WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2008043582) SYSTÈMES ET PROCÉDÉS POUR CONSTRUIRE UN DICTIONNAIRE ÉLECTRONIQUE DE NOMS COMPOSÉS DE MOTS MULTIPLES ET POUR FAIRE DES RECHERCHES FLOUES DANS LEDIT DICTIONNAIRE
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2008/043582    N° de la demande internationale :    PCT/EP2007/054293
Date de publication : 17.04.2008 Date de dépôt international : 03.05.2007
CIB :
G06F 17/27 (2006.01), G06F 17/30 (2006.01)
Déposants : INTERNATIONAL BUSINESS MACHINES CORPORATION [US/US]; New Orchard Road, Armonk, New York 10504 (US) (Tous Sauf US).
Compagnie IBM France [FR/FR]; Tour Descartes, La Defense 5, 2, Avenue Gambetta, F-92400 Courbevoie (FR) (MG only).
EL-SHISHINY, Hisham [EG/EG]; (EG) (US Seulement).
VOLKOV, Pavel [RU/IE]; (IE) (US Seulement)
Inventeurs : EL-SHISHINY, Hisham; (EG).
VOLKOV, Pavel; (IE)
Mandataire : BELL, Mark; Le Plan du Bois, F-06610 La Gaude (FR)
Données relatives à la priorité :
06122226.1 13.10.2006 EP
Titre (EN) SYSTEMS AND METHODS FOR BUILDING AN ELECTRONIC DICTIONARY OF MULTI-WORD NAMES AND FOR PERFORMING FUZZY SEARCHES IN SAID DICTIONARY
(FR) SYSTÈMES ET PROCÉDÉS POUR CONSTRUIRE UN DICTIONNAIRE ÉLECTRONIQUE DE NOMS COMPOSÉS DE MOTS MULTIPLES ET POUR FAIRE DES RECHERCHES FLOUES DANS LEDIT DICTIONNAIRE
Abrégé : front page image
(EN)The present invention discloses methods, systems and computer programs for automatically building a contracted dictionary from a given list of multi-word proper names and for performing fuzzy searches in this dictionary. The contracted dictionary of proper names comprising two linked trie-based dictionaries : a first dictionary is used to store single word names, each word name having an identification number (ID number), and a second dictionary is used to store multi-word names encoded with ID numbers. Information related to the multi-word names is also stored as a gloss to the terminal node of the multi-word entry of the trie-based dictionary. An approximate lookup for a multi-word name is conducted first for each word of the multi-word name using an approximate matching technique such as a phonetic proximity or a simple edit distance. Accordingly, N suggestions is determined for each word of the multi-word name under consideration. Then, multi-word candidates are assembled in ID notation. Finally, an approximate search for each assembled candidate, is performed based on an edit distance or a n-grams approximate string matching. Edit distances and N-grams are used to measure how similar two strings are. The result is a set of multi-word suggestions in an ID notation. This ID notation is encoded back to the original form using the first trie-based dictionary.
(FR)La présente invention concerne des procédés, des systèmes et des programmes informatiques pour construire automatiquement un dictionnaire contracté à partir d'une liste donnée de noms propres composés de mots multiples et pour faire des recherches floues dans ce dictionnaire. Le dictionnaire contracté de noms propres comprend deux dictionnaires associés fondés sur des arbres préfixes ('trie') : un premier dictionnaire étant utilisé pour stocker des noms composés d'un seul mot, chaque nom possédant un numéro d'identification (numéro ID); et un deuxième dictionnaire étant utilisé pour stocker des noms composés de mots multiples codés par des numéros ID. Des informations associées aux noms composés de mots multiples sont également stockées sous forme de mention sur le noeud terminal de l'entrée composée de mots multiples du dictionnaire fondé sur des arbres préfixes. Une recherche approximative pour un nom composé de mots multiples est effectuée pour chaque mot du nom composé de mots multiples au moyen d'une technique de mise en correspondance approximative de type proximité phonétique ou simple distance d'édition. Ainsi, N suggestions sont déterminées pour chaque mot du nom composé de mots multiples considéré. Ensuite, des candidats composés de mots multiples sont assemblés dans une notation ID. Enfin, une recherche approximative pour chaque candidat assemblé est effectuée en fonction d'une distance d'édition ou d'une mise en correspondance de chaîne approximative de n-grams. Les distances d'édition et les N-grams sont utilisés pour mesurer le degré de similarité entre deux chaînes. Le résultat est un ensemble de suggestions composées de mots multiples dans une notation ID. Cette notation ID est recodée sous sa forme originale au moyen du premier dictionnaire fondé sur des arbres préfixes.
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, MT, NL, PL, PT, RO, SE, SI, SK, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)