Processing

Please wait...

Settings

Settings

Goto Application

1. WO2008154029 - DATA CLASSIFICATION AND HIERARCHICAL CLUSTERING

Publication Number WO/2008/154029
Publication Date 18.12.2008
International Application No. PCT/US2008/007308
International Filing Date 11.06.2008
IPC
G06F 7/00 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
7Methods or arrangements for processing data by operating upon the order or content of the data handled
CPC
G06F 16/35
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
35Clustering; Classification
G06K 9/6219
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62Methods or arrangements for recognition using electronic means
6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
6218Clustering techniques
6219Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendogram
Applicants
  • THE TRUSTEES OF COLUMBIA UNIVERSITY IN THE CITY OF NEW YORK [US]/[US] (AllExceptUS)
  • MALIK, Hassan Haider [PK]/[US] (UsOnly)
  • KENDER, John Ronald [US]/[US] (UsOnly)
Inventors
  • MALIK, Hassan Haider
  • KENDER, John Ronald
Agents
  • CLISE, Timothy B.
Priority Data
60/943,21811.06.2007US
60/950,13417.07.2007US
60/963,60006.08.2007US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) DATA CLASSIFICATION AND HIERARCHICAL CLUSTERING
(FR) CLASSIFICATION DE DONNÉES ET GROUPEMENT HIÉRARCHISÉ
Abstract
(EN) Apparatus, systems, and methods can operate to provide efficient data clustering, data classification, and data compression. A method comprises training set of training instances can be processed to select a subset of size-1 patterns, initialize a weight of each size-1 pattern, include the size-1 patterns in classes in a model associated with the training set, and then include a set of top-k size-2 patterns in a way that provides an effective balance between local, class, and global significance patterns. A method comprises processing a dataset to compute an overall significance value of each size-2 pattern in each instance in the dataset, sort the size-2 patterns, and select the top-k size-2 patterns to be represented in clusters, which can be refined into a clustered hierarchy. A method comprises creating an uncompressed bitmap, reordering the bitmap, and compressing the bitmap. Additional apparatus, systems, and methods are disclosed.
(FR) L'invention concerne un appareil, des systèmes et des procédés qui peuvent fonctionner pour réaliser un groupement de données, une classification de données et une compression de données efficaces. Un procédé comprend l'apprentissage d'un ensemble d'instances d'apprentissage qui peuvent être traitées pour sélectionner un sous-ensemble de motifs de taille 1, initialiser un coefficient de pondération de chaque motif de taille 1, inclure les motifs de taille 1 dans des classes dans un modèle associé à l'ensemble d'apprentissage, et ensuite inclure un ensemble de k motifs de taille 2 supérieurs d'une manière qui permet d'obtenir un équilibre efficace entre des motifs d'importance locale, de classe et globale. Un procédé comprend le traitement d'un ensemble de données pour calculer une valeur d'importance globale de chaque motif de taille 2 dans chaque instance dans l'ensemble de données, trier les motifs de taille 2, et sélectionner les k motifs de taille 2 supérieurs à représenter dans des groupes, qui peuvent être affinés en une hiérarchie de groupes. Un procédé comprend la création d'une carte de bits non compressée, le réagencement de la carte de bits, et la compression de la carte de bits. D'autres appareil, systèmes et procédés sont présentés.
Related patent documents
Latest bibliographic data on file with the International Bureau