WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
maximize
Machine translation
91. (WO2006122086) MATCHING ENGINE WITH SIGNATURE GENERATION AND RELEVANCE DETECTION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2006/122086    International Application No.:    PCT/US2006/017846
Publication Date: 16.11.2006 International Filing Date: 08.05.2006
IPC:
G06F 17/30 (2006.01), G06F 17/00 (2006.01)
Applicants: PROVILLA, INC. [US/US]; 1064 Yosemite Drive, Milpitas, CA 95035 (US) (For All Designated States Except US).
REN, Liwei [CN/US]; (US) (For US Only).
TAN, Dehua [CA/US]; (US) (For US Only).
HUANG, Fei [CN/US]; (US) (For US Only).
HUANG, Shu [CN/US]; (US) (For US Only).
DONG, Aiguo [CN/US]; (US) (For US Only)
Inventors: REN, Liwei; (US).
TAN, Dehua; (US).
HUANG, Fei; (US).
HUANG, Shu; (US).
DONG, Aiguo; (US)
Agent: PATEL, Rajiv, P.; FENWICK & WEST LLP, SILICON VALLEY CENTER, 801 California Street, Mountain View, CA 94041 (US)
Priority Data:
60/679,314 09.05.2005 US
11/361,340 24.02.2006 US
11/361,447 24.02.2006 US
Title (EN) MATCHING ENGINE WITH SIGNATURE GENERATION AND RELEVANCE DETECTION
(FR) MOTEUR DE MISE EN CORRESPONDANCE A GENERATION DE SIGNATURES ET DETECTION DE PERTINENCE
Abstract: front page image
(EN)A system and a method generates at least one signature associated with document. In one embodiment, a document comprised of text is received and parsed to generate a token set. The token set includes a plurality of tokens. Each token corresponds to the text in the document that is separated by a predefined character characteristic. A score is calculated for each token in the token set based on a frequency and distribution of the text in the document. Each token is then ranked based on the calculated score. A subset of the ranked tokes is selected and a signature is generated for each occurrence of the selected tokens. The selected list of signatures is then output.
(FR)L'invention concerne un système et un procédé de génération d'au moins une signature associée à un document. Dans un mode de réalisation, un document constitué de texte est reçu et analysé afin de générer un ensemble de jetons d'authentification. L'ensemble de jetons d'authentification comprend une pluralité de jetons d'authentification. Chaque jeton d'authentification correspond au texte du document qui est séparé par une caractéristique de caractère prédéfinie. Un score est calculé pour chaque jeton d'authentification de l'ensemble de jetons d'authentification en fonction d'une fréquence et d'une distribution du texte dans le document. Chaque jeton d'authentification est ensuite classé en fonction du score calculé. Un sous-ensemble de jetons d'authentification classés est sélectionné et une signature est générée pour chaque occurrence des jetons d'authentification sélectionnés. La liste sélectionnée de signatures est alors sortie.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RU, SC, SD, SE, SG, SK, SL, SM, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, YU, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)