WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2007005742) METHOD AND APPARATUS FOR DOCUMENT CLUSTERING AND DOCUMENT SKETCHING
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2007/005742    International Application No.:    PCT/US2006/025831
Publication Date: 11.01.2007 International Filing Date: 30.06.2006
Chapter 2 Demand Filed:    12.01.2007    
IPC:
G06F 7/00 (2006.01), G06F 17/30 (2006.01)
Applicants: EBRARY, INC. [US/US]; 318 Cambridge Avenue, Palo Alto, CA 94306 (US) (For All Designated States Except US).
GOLLAPUDI, Sreenivas [US/US]; (US) (For US Only)
Inventors: GOLLAPUDI, Sreenivas; (US)
Agent: GLENN, Michael, A.; GLENN PATENT GROUP, 3475 Edison Way, Ste. L., Menlo Park, CA 94025 (US)
Priority Data:
60/695,939 01.07.2005 US
11/427,781 29.06.2006 US
Title (EN) METHOD AND APPARATUS FOR DOCUMENT CLUSTERING AND DOCUMENT SKETCHING
(FR) PROCEDE ET DISPOSITIF DE GROUPAGE DE DOCUMENTS ET DE DEFINITION DE SCHEMAS DE DOCUMENTS
Abstract: front page image
(EN)A first embodiment of the invention provides a system that automatically classifies documents in a collection into clusters based on the similarities between documents, that automatically classifies new documents into the right clusters, and that may change the number or parameters of clusters under various circumstances. A second embodiment of the invention provides a technique for comparing two documents, in which a fingerprint or sketch of each document is computed. In particular, this embodiment of the invention uses a specific algorithm to compute the document's fingerprint. One embodiment uses a sentence in the document as a logical delimiter or window from which significant words are extracted and, thereafter, a hash is computed of all pair-wise permutations. Words are extracted based on their weight in the document, which can be computed using measures such as term frequency and the inverse document frequency.
(FR)Dans un premier mode de réalisation, cette invention concerne un système qui classe automatiquement les documents d'une collection en groupes, en fonction de similitudes entre ces documents, et qui classe automatiquement les nouveaux documents dans les groupes adéquats, et qui sont en outre capables de modifier le nombre ou les paramètres des groupes dans diverses circonstances. Dans un second mode de réalisation, l'invention concerne un procédé de comparaison de deux documents, dans lequel une empreinte ou un schéma de chaque document est calculé. Ce procédé fait appel à un algorithme spécifique pour calculer l'empreinte du document. Dans un mode de réalisation particulier, une phrase du document est utilisée en tant que délimiteur ou fenêtre logique à partir duquel les mots significatifs sont extraits, puis un condensé est calculé à partir de toutes les permutations par paires. Les mots sont extraits en fonction de leur poids dans le document, le poids pouvant se calculer au moyen de mesures telles que la fréquence des termes, et la fréquence inverse des documents.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)