Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

1. WO2012009071 - ECHANTILLONNAGE STRATIFIÉ DIMENSIONNEL ÉLEVÉ

Numéro de publication WO/2012/009071
Date de publication 19.01.2012
N° de la demande internationale PCT/US2011/039750
Date du dépôt international 09.06.2011
CIB
G06F 17/30 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17Équipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
30Recherche documentaire; Structures de bases de données à cet effet
CPC
G06F 16/2462
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
245Query processing
2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
2462Approximate or statistical queries
G06F 16/285
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
28Databases characterised by their database models, e.g. relational or object models
284Relational databases
285Clustering or classification
Déposants
  • ALCATEL LUCENT [FR/FR]; 3, avenue Octave Gréard F-75007 Paris, FR (AllExceptUS)
  • CHEN, Aiyou [CN/US]; US (UsOnly)
  • XIONG, Ming [US/US]; US (UsOnly)
Inventeurs
  • CHEN, Aiyou; US
  • XIONG, Ming; US
Mandataires
  • BILICSKA, Carl; Alcatel-Lucent USA Inc. Attention: Docket Administrator-Room 3D-201 600-700 Mountain Avenue Murray Hill, NJ 07974-0636, US
Données relatives à la priorité
12/824,84928.06.2010US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) HIGH-DIMENSIONAL STRATIFIED SAMPLING
(FR) ECHANTILLONNAGE STRATIFIÉ DIMENSIONNEL ÉLEVÉ
Abrégé
(EN)
In one aspect, a processing device of an information processing system is operative to perform high-dimensional stratified sampling of a database comprising a plurality of records arranged in overlapping sub-groups. For a given record, the processing device determines which of the sub-groups the given record is associated with, and for each of the sub-groups associated with the given record, checks if a sampling rate of the sub-group is less than a specified sampling rate. If the sampling rate of each of the sub-groups is less than the specified sampling rate, the processing device samples the given record, and otherwise does not sample the given record. The determine, check and sample operations are repeated for additional records, and samples resulting from the sample operations are processed to generate information characterizing the database. Other aspects of the invention relate to determining which records to sample through iterative optimization of an objective function that may be based, for example, on a likelihood function of the sampled records.
(FR)
Dans un aspect, un dispositif de traitement d'un système de traitement d'informations est conçu pour effectuer un échantillonnage stratifié dimensionnel élevé d'une base de données comprenant une pluralité d'enregistrements agencés dans des sous-groupes se chevauchant. Pour un enregistrement donné, le dispositif de traitement détermine lequel des sous-groupes est associé à l'enregistrement donné et, pour chacun des sous-groupes associés à l'enregistrement donné, le dispositif vérifie si un taux d'échantillonnage du sous-groupe est inférieur à un taux d'échantillonnage spécifié. Si le taux d'échantillonnage de chacun des sous-groupes est inférieur au taux d'échantillonnage spécifié, le dispositif de traitement échantillonne l'enregistrement donné et, sinon, il n'échantillonne pas l'enregistrement donné. Les opérations de détermination, de vérification et d'échantillonnage sont répétées pour des enregistrements supplémentaires, et des échantillons résultant des opérations d'échantillonnage sont traités afin de générer des informations caractérisant la base de données. D'autres aspects de l'invention consistent à déterminer quels enregistrements doivent être échantillonnés par le biais d'une optimisation itérative d'une fonction objective qui peut être basée, par exemple, sur une fonction de vraisemblance des enregistrements échantillonnés.
Dernières données bibliographiques dont dispose le Bureau international