Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2012083305 - PROCÉDÉS ET SYSTÈMES DE CALCUL INCRÉMENTAL DE SIMILARITÉ DE SOURCES DE DONNÉES

Numéro de publication WO/2012/083305
Date de publication 21.06.2012
N° de la demande internationale PCT/US2011/065893
Date du dépôt international 19.12.2011
CIB
G06F 17/40 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17Équipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
40Acquisition et consignation de données
G06F 12/00 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
12Accès à, adressage ou affectation dans des systèmes ou des architectures de mémoires
CPC
G06F 16/1748
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
10File systems; File servers
17Details of further file system functions
174Redundancy elimination performed by the file system
1748De-duplication implemented within the file system, e.g. based on file segments
G06F 16/214
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
21Design, administration or maintenance of databases
214Database migration support
Déposants
  • NETAPP, INC. [US]/[US] (AllExceptUS)
  • GAONKAR, Shravan [IN]/[US] (UsOnly)
  • DIXIT, Sagar [IN]/[US] (UsOnly)
Inventeurs
  • GAONKAR, Shravan
  • DIXIT, Sagar
Mandataires
  • ZHANG, Yiming
Données relatives à la priorité
12/972,26617.12.2010US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) METHODS AND SYSTEMS TO INCREMENTALLY COMPUTE SIMILARITY OF DATA SOURCES
(FR) PROCÉDÉS ET SYSTÈMES DE CALCUL INCRÉMENTAL DE SIMILARITÉ DE SOURCES DE DONNÉES
Abrégé
(EN)
Methods and systems for efficiently determining a similarity between two or more datasets. In one embodiment, the similarity is determined based on comparing a subset of sorted frequency-weighted blocks from one dataset to a subset of sorted frequency-weighed blocks from another dataset. Data blocks of a dataset are converted into hash values that are frequency-weighted. These frequency-weighted hash values can be compared to frequency-weighted hash values of another dataset to determine a similarity of the two datasets. In another embodiment, upon a change of a block in a subset of the dataset, the similarity value is re-determined without resorting or hashing the blocks of a dataset other than the blocks of the subset, resulting in an increased performance of a similarity comparison. In another embodiment, blocks of a dataset are excluded based on a block-filtering rule to increase the accuracy of the similarity comparison.
(FR)
L'invention concerne des procédés et des systèmes qui permettent de déterminer efficacement une similarité entre au moins deux ensembles de données. Selon un mode de réalisation, la similarité est déterminée sur la base d'une comparaison d'un sous-ensemble de blocs pondérés en fréquence, triés et issus d'un ensemble de données à un sous-ensemble de blocs pondérés en fréquence, triés et issus d'un autre ensemble de données. Des blocs de données d'un ensemble de données sont convertis en valeurs de hachage qui sont pondérées en fréquence. Ces valeurs de hachage pondérées en fréquence peuvent être comparées à des valeurs de hachage pondérées en fréquence d'un autre ensemble de données afin de déterminer une similarité entre les deux ensembles de données. Selon un autre mode de réalisation, lors d'une modification d'un bloc dans un sous-ensemble de l'ensemble de données, la valeur de similarité est re-déterminée sans avoir à trier de nouveau, ni à hacher les blocs d'un ensemble de données autres que les blocs du sous-ensemble, ce qui entraîne une amélioration de l'efficacité d'une comparaison de similarité. Selon un autre mode de réalisation, des blocs d'un ensemble de données sont exclus sur la base d'une règle de filtrage de bloc afin d'augmenter la précision de la comparaison de similarité.
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international