(EN) A method of noise detection in unstructured data comprising obtaining an input file (502) containing input data, the input data being output from at least one network element and removing (504) predefined characters from the input data. Further, the method comprises calculating a similarity matrix (506) by comparing each line of the input data with other lines of the input data in the file, performing clustering (508) on the similarity matrix and assigning each row of the similarity matrix into one of at least two clusters, and identifying one of the clusters as containing noise (510) based on comparing deviation of length of lines of text in the at least two clusters. An apparatus implementing the method is also disclosed.
(FR) Procédé de détection de bruit dans des données non structurées consistant à obtenir un fichier d'entrée (502) contenant des données d'entrée, les données d'entrée étant émises par au moins un élément de réseau, et à supprimer (504) des caractères prédéfinis à partir des données d'entrée. En outre, le procédé consiste à calculer une matrice de similarité (506) par comparaison de chaque ligne des données d'entrée avec d'autres lignes des données d'entrée dans le fichier, par exécution d'un regroupement (508) sur la matrice de similarité et d'une attribution de chaque rangée de la matrice de similarité dans une grappe parmi au moins deux grappes, et par identification d'une des grappes comme contenant du bruit (510) sur la base d'une comparaison d'un écart de longueur de lignes de texte dans lesdites deux grappes. Un appareil mettant en œuvre le procédé est également divulgué.