WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2005015434) PROCEDE ET SYSTEME DE CATEGORISATION D'UN TEXTE ARABE
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2005/015434    N° de la demande internationale :    PCT/EP2004/006906
Date de publication : 17.02.2005 Date de dépôt international : 13.05.2004
Demande présentée en vertu du Chapitre 2 :    20.01.2005    
CIB :
G06F 17/30 (2006.01)
Déposants : INTERNATIONAL BUSINESS MACHINES CORPORATION [US/US]; New Orchard Road, Armonk, NJ 10504 (US) (Tous Sauf US).
COMPAGNIE IBM FRANCE [FR/FR]; Tour Descartes, La Défense, 5, 2, aveue Gambetta, F-92400 Courbevoie (FR) (MC only).
EL-SHISHINY, Hisham [EG/EG]; (EG) (US Seulement)
Inventeurs : EL-SHISHINY, Hisham; (EG)
Mandataire : ETTORE, Yves, Nicolas; Compagnie IBM France, Direction de la Propriété Intellectuelle, 06610 La Gaude (FR)
Données relatives à la priorité :
03368072.9 23.07.2003 EP
Titre (EN) METHOD AND SYSTEM FOR CATEGORIZING ARABIC TEXT
(FR) PROCEDE ET SYSTEME DE CATEGORISATION D'UN TEXTE ARABE
Abrégé : front page image
(EN)The present invention is directed to a system, method and computer program for categorizing Arabic documents based on the text content. More particularly, the invention is a frequency based method using a learning approach that exploits, Arabic lexical look-up, Arabic morphological analysis, and a number of interconnected Arabic linguistic filters, to categorize Arabic texts. The present Arabic text categorization method comprises two phases namely: the learning phase, and the automatic categorization phase. During the learning phase, lemma forms (called stems) of specific noun types are extracted from manually categorized Arabic texts and then filtered, using Arabic morphological analysis. Based on these lemma forms and on the normalized frequency of these lemma forms for each predefined category, it is possible to automatically assign new Arabic texts to predefined categories during the automatic text categorization phase. As a result, categorization of Arabic texts is more precise and less sensitive to noise than prior art solutions. The present invention relates to a method for automatically assigning Arabic texts to predefined categories supporting information retrieval. For example, the method can be used to filter out Arabic documents that are unlikely to contain extractable data and can be used to route Arabic texts to processing mechanisms that are category specific.
(FR)La présente invention porte sur un système, sur un procédé et sur un sur un programme informatique permettant de catégoriser des documents en arabe sur la base du contenu du texte. L'invention porte notamment sur un procédé à base de fréquences utilisant une méthode d'apprentissage qui exploite : la consultation du lexique arabe, l'analyse morphologique de l'arabe et un nombre de filtres linguistiques interconnectés de l'arabe afin de catégoriser des textes arabes. Le procédé de catégorisation du texte arabe comprend deux phases, à savoir: la phase d'apprentissage et la phase de catégorisation automatique. Pendant la phase d'apprentissage, les formes lemme (appelées tiges) de types de noms spécifiques sont extraites de textes arabes catégorisés manuellement et ensuite filtrés par analyse morphologique de l'arabe. Sur la base de ces formes lemme et sur la fréquence normalisée de ces formes lemme pour chaque catégorie prédéfinie, il est possible d'affecter automatiquement de nouveaux textes arabes aux catégories prédéfinies pendant la phase de catégorisation automatique du texte. En conséquence, la catégorisation des textes arabes est plus précise et moins sensible au bruit que les solutions apportées par la technique antérieure. La présente invention porte également sur un procédé d'affectation automatique des textes arabes à des catégories prédéfinies supportant l'extraction d'informations. Par exemple, le procédé peut être utilisé pour filtrer des documents arabes qui ne sont pas susceptibles de contenir des données extractibles et peut être utilisé pour acheminer des textes arabes vers des mécanismes de traitement qui sont spécifiques d'une catégorie.
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NA, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, YU, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL, PL, PT, RO, SE, SI, SK, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)