Search International and National Patent Collections
Some content of this application is unavailable at the moment.
If this situation persists, please contact us atFeedback&Contact
1. (WO2007008871) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2007/008871 International Application No.: PCT/US2006/026845
Publication Date: 18.01.2007 International Filing Date: 11.07.2006
IPC:
G06F 7/00 (2006.01) ,G06F 17/00 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
7
Methods or arrangements for processing data by operating upon the order or content of the data handled
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
Applicants:
SAND TECHNOLOGY SYSTEMS INTERNATIONAL, INC. [CA/CA]; 215 Redfern, Suite 410 Westmount, Quebec, H3Z 3L5, CA (AllExceptUS)
MCCOOL, Michael [US/US]; US (UsOnly)
WALD, Linda, Ann [US/US]; US (UsOnly)
Inventors:
MCCOOL, Michael; US
WALD, Linda, Ann; US
Agent:
CHANG, Josephine, E.; CHRISTIE, PARKER & HALE, LLP P.o. Box 7068 Pasadena, CA 91109-7068, US
Priority Data:
11/180,05312.07.2005US
Title (EN) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
(FR) PROCEDE ET APPAREIL POUR REPRESENTER DES DONNEES NON STRUCTUREES
Abstract:
(EN) Method and apparatus providing a binary representation of a document storing unstructured data. A unique word identifier is obtained for each word included in the document. A word select vector includes positions identified by different word identifiers. A 1-bit value is stored at positions identified by the word identifiers of the words included in the document. A unique position identifier is further assigned to each word appearing in the document. A word use set includes vectors for each unique word identifier for which a 1-bit is stored in the word select vector. Each vector in the word use set indicates the position identifiers of the instances of a particular word included in the document. Once the binary representation is generated, it may be efficiently searched to determine whether particular words appear in the document.
(FR) L'invention concerne un procédé et un appareil pour fournir une représentation binaire d'un document renfermant des données non structurées. Un identificateur de mot unique est obtenu pour chaque mot faisant partie du document. Un vecteur de sélection de mot comporte des positions identifiées par différents identificateurs de mot. Une valeur binaire de 1 est stockée au niveau de positions identifiées par les identificateurs des mots figurant dans le document. Un identificateur de position unique est en outre associé à chaque mot du document. Un ensemble d'utilisation de mot comprend des vecteurs pour chaque identificateur de mot unique pour lequel une valeur binaire de 1 est stockée dans le vecteur de sélection de mot. Chaque vecteur de l'ensemble d'utilisation de mot indique les identificateurs de position des occurrences d'un mot spécifique dans le document. Dès que la représentation binaire est générée, des recherches peuvent y être effectuées pour déterminer quels mots spécifiques apparaissent dans le document.
front page image
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)
Also published as:
EP1902357