Search International and National Patent Collections
Some content of this application is unavailable at the moment.
If this situation persists, please contact us atFeedback&Contact
1. (EP1902357) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA

Office : European Patent Office
Application Number: 06786864 Application Date: 11.07.2006
Publication Number: 1902357 Publication Date: 26.03.2008
Publication Kind : A4
Designated States: AL, BA, CH, DE, GB, HR, LI, MK, YU
Prior PCT appl.: Application Number:US2006026845 ; Publication Number: Click to see the data
IPC:
G06F 7/00
G06F 17/30
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
7
Methods or arrangements for processing data by operating upon the order or content of the data handled
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
CPC:
G06F 16/335
G06F 16/3347
Y10S 707/99932
Y10S 707/99933
Y10S 707/99942
Y10S 707/99943
Applicants: SAND TECHNOLOGY SYSTEMS INTERNATIONAL INC
Inventors: MCCOOL MICHAEL
WALD LINDA ANN
Priority Data: 18005305 12.07.2005 US
2006026845 11.07.2006 US
Title: (DE) VERFAHREN UND VORRICHTUNG ZUR DARSTELLUNG UNSTRUKTURIERTER DATEN
(EN) METHOD AND APPARATUS FOR REPRESENTATION OF UNSTRUCTURED DATA
(FR) PROCEDE ET APPAREIL POUR REPRESENTER DES DONNEES NON STRUCTUREES
Abstract:
(EN) Method and apparatus providing a binary representation of a document storing unstructured data. A unique word identifier is obtained for each word included in the document. A word select vector includes positions identified by different word identifiers. A 1-bit value is stored at positions identified by the word identifiers of the words included in the document. A unique position identifier is further assigned to each word appearing in the document. A word use set includes vectors for each unique word identifier for which a 1-bit is stored in the word select vector. Each vector in the word use set indicates the position identifiers of the instances of a particular word included in the document. Once the binary representation is generated, it may be efficiently searched to determine whether particular words appear in the document.
(FR) L'invention concerne un procédé et un appareil pour fournir une représentation binaire d'un document renfermant des données non structurées. Un identificateur de mot unique est obtenu pour chaque mot faisant partie du document. Un vecteur de sélection de mot comporte des positions identifiées par différents identificateurs de mot. Une valeur binaire de 1 est stockée au niveau de positions identifiées par les identificateurs des mots figurant dans le document. Un identificateur de position unique est en outre associé à chaque mot du document. Un ensemble d'utilisation de mot comprend des vecteurs pour chaque identificateur de mot unique pour lequel une valeur binaire de 1 est stockée dans le vecteur de sélection de mot. Chaque vecteur de l'ensemble d'utilisation de mot indique les identificateurs de position des occurrences d'un mot spécifique dans le document. Dès que la représentation binaire est générée, des recherches peuvent y être effectuées pour déterminer quels mots spécifiques apparaissent dans le document.
Also published as:
WO/2007/008871