WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2014198595) METHOD FOR AUTOMATIC THEMATIC CLASSIFICATION OF A DIGITAL TEXT FILE
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2014/198595    International Application No.:    PCT/EP2014/061535
Publication Date: 18.12.2014 International Filing Date: 04.06.2014
IPC:
G06F 17/30 (2006.01), G06N 5/02 (2006.01)
Applicants: PROXEM [FR/FR]; 19 Boulevard de Magenta F-75010 Paris (FR)
Inventors: CHAUMARTIN, François-Régis; (FR)
Agent: MARCONNET, Sébastien; Cabinet Sébastien MARCONNET 4Ter Route des Gardes (Bâtiment A) 92190 Meudon (FR)
Priority Data:
1355596 14.06.2013 FR
Title (EN) METHOD FOR AUTOMATIC THEMATIC CLASSIFICATION OF A DIGITAL TEXT FILE
(FR) PROCEDE DE CLASSIFICATION THEMATIQUE AUTOMATIQUE D'UN FICHIER DE TEXTE NUMERIQUE
Abstract: front page image
(EN)The invention primarily relates to a method for the thematic classification of a digital text file (1) from an encyclopaedic database (5) comprising a category graph (G), said method comprising, during a learning phase (PA) making it possible to develop a thematic classification model (3), the step of grouping together, for each category node, all of the items directly attached to that category node so as to obtain a "word bag" for each category node; determining a so-called term-frequency vector characteristic of the category node; combining, on each category node, the term-frequency vector directly connected to it with term-frequency vectors of more specific nodes; and in that it comprises, during a production phase (PP), a step for calculating the term-frequency vector (V) of said digital text file (1) and selecting, in said thematic classification model (3), N category nodes having the term-frequency vectors (V') closest to the term-frequency vector (V) of the digital text file.
(FR)L'invention porte principalement sur un procédé de classification thématique d'un fichier de texte numérique (1) à partir d'une base de données encyclopédique (5) comportant un graphe de catégories (G), ledit procédé comporte, au cours d'une phase d'apprentissage (PA) permettant d'élaborer un modèle de classification thématique (3), l'étape de regrouper, pour chaque nœud de catégorie, tous les articles rattachés directement audit nœud de catégorie de manière à obtenir pour chaque nœud de catégorie un "sac de mots", déterminer un vecteur dit vecteur termes-fréquences caractéristique du nœud de catégorie, combiner sur chaque nœud de catégorie le vecteur termes-fréquences qui lui est directement relié avec des vecteurs termes-fréquences de nœuds plus spécifiques, et en ce qu'il comporte, lors d'une phase de production (PP), l'étape de calculer le vecteur (V) termes-fréquences dudit fichier de texte numérique (1) et de retenir dans ledit modèle de classification thématique (3) N nœuds de catégorie ayant les vecteurs (Vi') termes-fréquences les plus proches du vecteur (V) termes-fréquences du fichier de texte numérique (1).
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: French (FR)
Filing Language: French (FR)