WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2007008871) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2007/008871    International Application No.:    PCT/US2006/026845
Publication Date: 18.01.2007 International Filing Date: 11.07.2006
IPC:
G06F 7/00 (2006.01), G06F 17/00 (2006.01)
Applicants: SAND TECHNOLOGY SYSTEMS INTERNATIONAL, INC. [CA/CA]; 215 Redfern, Suite 410, Westmount, Quebec, H3Z 3L5 (CA) (For All Designated States Except US).
MCCOOL, Michael [US/US]; (US) (For US Only).
WALD, Linda, Ann [US/US]; (US) (For US Only)
Inventors: MCCOOL, Michael; (US).
WALD, Linda, Ann; (US)
Agent: CHANG, Josephine, E.; CHRISTIE, PARKER & HALE, LLP, P.o. Box 7068, Pasadena, CA 91109-7068 (US)
Priority Data:
11/180,053 12.07.2005 US
Title (EN) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
(FR) PROCEDE ET APPAREIL POUR REPRESENTER DES DONNEES NON STRUCTUREES
Abstract: front page image
(EN)Method and apparatus providing a binary representation of a document storing unstructured data. A unique word identifier is obtained for each word included in the document. A word select vector includes positions identified by different word identifiers. A 1-bit value is stored at positions identified by the word identifiers of the words included in the document. A unique position identifier is further assigned to each word appearing in the document. A word use set includes vectors for each unique word identifier for which a 1-bit is stored in the word select vector. Each vector in the word use set indicates the position identifiers of the instances of a particular word included in the document. Once the binary representation is generated, it may be efficiently searched to determine whether particular words appear in the document.
(FR)L'invention concerne un procédé et un appareil pour fournir une représentation binaire d'un document renfermant des données non structurées. Un identificateur de mot unique est obtenu pour chaque mot faisant partie du document. Un vecteur de sélection de mot comporte des positions identifiées par différents identificateurs de mot. Une valeur binaire de 1 est stockée au niveau de positions identifiées par les identificateurs des mots figurant dans le document. Un identificateur de position unique est en outre associé à chaque mot du document. Un ensemble d'utilisation de mot comprend des vecteurs pour chaque identificateur de mot unique pour lequel une valeur binaire de 1 est stockée dans le vecteur de sélection de mot. Chaque vecteur de l'ensemble d'utilisation de mot indique les identificateurs de position des occurrences d'un mot spécifique dans le document. Dès que la représentation binaire est générée, des recherches peuvent y être effectuées pour déterminer quels mots spécifiques apparaissent dans le document.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)