Search International and National Patent Collections
Some content of this application is unavailable at the moment.
If this situation persists, please contact us atFeedback&Contact
1. (WO2001090921) SYSTEM AND METHOD FOR AUTOMATICALLY CLASSIFYING TEXT
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2001/090921 International Application No.: PCT/US2001/016872
Publication Date: 29.11.2001 International Filing Date: 25.05.2001
Chapter 2 Demand Filed: 21.12.2001
IPC:
G06F 17/21 (2006.01) ,G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
21
Text processing
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
KANISA, INC. [US/US]; 19925 Stevens Creek Blvd. Suite 150 Cupertino, CA 95014, US
Inventors:
UKRAINCZYK, Igor; US
COPPERMAN, Max; US
HUFFMAN, Scott, B.; US
Agent:
VIKSNINS, Ann, S. ; Schwegman, Lundberg, Woessner & Kluth P.O. Box 2938 Minneaplois, MN 55402, US
Priority Data:
60/206,97525.05.2000US
Title (EN) SYSTEM AND METHOD FOR AUTOMATICALLY CLASSIFYING TEXT
(FR) PROCEDE ET SYSTEME DE CLASSIFICATION AUTOMATIQUE DE TEXTE
Abstract:
(EN) A method is provided for automatically classifying text into categories. In operation, a plurality of tokens or features are manually or automatically associated with each category. A weight is then coupled to each feature, wherein the weight indicates a degree of association between the feature and the category. Next, a document is parsed into a plurality of unique tokens with associated counts, wherein the counts are indicative of the number of times the feature appears in the document. A category score representative of a sum of products of each feature count in the document times the corresponding feature weight in the category for each document is then computed. Next, the category scores are sorted by perspective, and a document is classified into a particular category, provided the category score exceeds a predetermined threshold.
(FR) La présente invention concerne un procédé de classification automatique de texte en catégories. A cet effet, on associe manuellement ou automatiquement à chaque catégorie une pluralité d'entités lexicales ou de caractéristiques, puis on associe à chaque caractéristique un coefficient de pondération caractéristique d'un niveau d'association entre la caractéristique et la catégorie. On prend ensuite un document et on le ventile en une pluralité d'entités lexicales uniques auxquelles sont associés des dénombrements caractéristiques du nombre d'occurrences de la caractéristique dans le document. On calcule alors un résultat par catégories représentatif d'une somme de produits de chaque dénombrement de caractéristiques dans le document multiplié par le coefficient de pondération correspondant dans la catégorie de chaque document. Il ne reste plus qu'à trier par perspective les résultats par catégorie et à classifier le document en une catégorie particulière, dans la mesure où le résultat par catégorie dépasse un seuil défini.
front page image
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, UZ, VN, YU, ZA, ZW
African Regional Intellectual Property Organization (ARIPO) (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)
Also published as:
AU2001264928