Processing

Please wait...

Settings

Settings

1. WO2007008871 - METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA

Publication Number WO/2007/008871
Publication Date 18.01.2007
International Application No. PCT/US2006/026845
International Filing Date 11.07.2006
IPC
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
7
Methods or arrangements for processing data by operating upon the order or content of the data handled
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
G06F 7/00 (2006.01)
G06F 17/00 (2006.01)
CPC
G06F 16/3347
G06F 16/335
Y10S 707/99932
Y10S 707/99933
Y10S 707/99942
Y10S 707/99943
Applicants
  • SAND TECHNOLOGY SYSTEMS INTERNATIONAL, INC. [CA/CA]; 215 Redfern, Suite 410 Westmount, Quebec, H3Z 3L5, CA (AllExceptUS)
  • MCCOOL, Michael [US/US]; US (UsOnly)
  • WALD, Linda, Ann [US/US]; US (UsOnly)
Inventors
  • MCCOOL, Michael; US
  • WALD, Linda, Ann; US
Agents
  • CHANG, Josephine, E.; CHRISTIE, PARKER & HALE, LLP P.o. Box 7068 Pasadena, CA 91109-7068, US
Priority Data
11/180,05312.07.2005US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
(FR) PROCEDE ET APPAREIL POUR REPRESENTER DES DONNEES NON STRUCTUREES
Abstract
(EN)
Method and apparatus providing a binary representation of a document storing unstructured data. A unique word identifier is obtained for each word included in the document. A word select vector includes positions identified by different word identifiers. A 1-bit value is stored at positions identified by the word identifiers of the words included in the document. A unique position identifier is further assigned to each word appearing in the document. A word use set includes vectors for each unique word identifier for which a 1-bit is stored in the word select vector. Each vector in the word use set indicates the position identifiers of the instances of a particular word included in the document. Once the binary representation is generated, it may be efficiently searched to determine whether particular words appear in the document.
(FR)
L'invention concerne un procédé et un appareil pour fournir une représentation binaire d'un document renfermant des données non structurées. Un identificateur de mot unique est obtenu pour chaque mot faisant partie du document. Un vecteur de sélection de mot comporte des positions identifiées par différents identificateurs de mot. Une valeur binaire de 1 est stockée au niveau de positions identifiées par les identificateurs des mots figurant dans le document. Un identificateur de position unique est en outre associé à chaque mot du document. Un ensemble d'utilisation de mot comprend des vecteurs pour chaque identificateur de mot unique pour lequel une valeur binaire de 1 est stockée dans le vecteur de sélection de mot. Chaque vecteur de l'ensemble d'utilisation de mot indique les identificateurs de position des occurrences d'un mot spécifique dans le document. Dès que la représentation binaire est générée, des recherches peuvent y être effectuées pour déterminer quels mots spécifiques apparaissent dans le document.
Also published as
Latest bibliographic data on file with the International Bureau