(EN) Methods and systems for efficiently determining a similarity between two or more datasets. In one embodiment, the similarity is determined based on comparing a subset of sorted frequency-weighted blocks from one dataset to a subset of sorted frequency-weighed blocks from another dataset. Data blocks of a dataset are converted into hash values that are frequency-weighted. These frequency-weighted hash values can be compared to frequency-weighted hash values of another dataset to determine a similarity of the two datasets. In another embodiment, upon a change of a block in a subset of the dataset, the similarity value is re-determined without resorting or hashing the blocks of a dataset other than the blocks of the subset, resulting in an increased performance of a similarity comparison. In another embodiment, blocks of a dataset are excluded based on a block-filtering rule to increase the accuracy of the similarity comparison.
(FR) L'invention concerne des procédés et des systèmes qui permettent de déterminer efficacement une similarité entre au moins deux ensembles de données. Selon un mode de réalisation, la similarité est déterminée sur la base d'une comparaison d'un sous-ensemble de blocs pondérés en fréquence, triés et issus d'un ensemble de données à un sous-ensemble de blocs pondérés en fréquence, triés et issus d'un autre ensemble de données. Des blocs de données d'un ensemble de données sont convertis en valeurs de hachage qui sont pondérées en fréquence. Ces valeurs de hachage pondérées en fréquence peuvent être comparées à des valeurs de hachage pondérées en fréquence d'un autre ensemble de données afin de déterminer une similarité entre les deux ensembles de données. Selon un autre mode de réalisation, lors d'une modification d'un bloc dans un sous-ensemble de l'ensemble de données, la valeur de similarité est re-déterminée sans avoir à trier de nouveau, ni à hacher les blocs d'un ensemble de données autres que les blocs du sous-ensemble, ce qui entraîne une amélioration de l'efficacité d'une comparaison de similarité. Selon un autre mode de réalisation, des blocs d'un ensemble de données sont exclus sur la base d'une règle de filtrage de bloc afin d'augmenter la précision de la comparaison de similarité.