WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2003054746) METHOD AND SYSTEM FOR SIMILARITY SEARCH AND CLUSTERING
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2003/054746    International Application No.:    PCT/US2002/025279
Publication Date: 03.07.2003 International Filing Date: 09.08.2002
Chapter 2 Demand Filed:    16.07.2003    
IPC:
G06F 17/30 (2006.01)
Applicants: ENDECA TECHNOLOGIES, INC. [US/US]; 55 Cambridge Parkway Cambridge, MA 02142 (US)
Inventors: TUNKELANG, Daniel; (US)
Agent: STEINBERG, Donald, R.; Hale and Dorr LLP 60 State Street Boston, MA 02109 (US)
Priority Data:
10/027,195 20.12.2001 US
Title (EN) METHOD AND SYSTEM FOR SIMILARITY SEARCH AND CLUSTERING
(FR) PROCEDE ET SYSTEME POUR UNE RECHERCHE DE SIMILARITES ET DE MISE EN GRAPPE
Abstract: front page image
(EN)Provided is a similarity search method that makes use of a localized distance metric. The data includes a collection of items, wherein each item is associated with a set of properties. The distance between two items is defined in terms of the number of items in the collection that are associated with the set of properties common to the two items. A query is generally composed of a set of properties. The distance between a query and an item is defined in terms of the number of items in the collection that are associated with the set of properties common to the query and the item. The properties can be of various types, such as binary, partially ordered, or numeric. The distance metric may be applied explicitly or implicitly for similarity search. One embodiment of this invention uses random walks such that the similarity search can be performed exactly or approximately, trading-off between accuracy and performance. The distance metric of the present invention can also be the basis for matching and clustering applications. In these contexts, the distance metric of the present invention may be used to build a graph, to which matching or clustering algorithms can be applied.
(FR)L'invention concerne un procédé de recherche de similarités faisant appel à l'utilisation d'une mesure de distance localisée. Ces données comprennent un ensemble d'éléments, chaque élément étant associé à un ensemble de propriétés. La distance entre deux éléments est définie en termes du nombre d'éléments d'un ensemble qui sont associés à l'ensemble de propriétés communes aux deux éléments. Une demande est généralement composée d'un ensemble de propriétés. La distance entre une demande et un élément est définie en termes du nombre d'éléments de l'ensemble qui sont associés à l'ensemble de propriétés communes à la demande et à l'élément. Ces propriétés peuvent être de types variés, notamment binaires partiellement ordonnées, ou numériques. Cette mesure de distance peut être appliquée explicitement ou implicitement pour une recherche de similarités. Un mode de réalisation de l'invention fait appel à des marches aléatoires de sorte que la recherche de similarités peut être effectuée exactement ou approximativement, selon que l'on recherche l'exactitude ou la performance. La mesure de distance de la présente invention peut également constituer une base pour des applications de correspondances et de mise en grappe. Dans ces contextes, la mesure de distance de l'invention peut être utilisée pour construire un graphique, auquel peuvent s'appliquer des algorithmes de correspondances ou de mise en grappe.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, UZ, VN, YU, ZA, ZW.
African Regional Intellectual Property Organization (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)