Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022008263 - METHOD AND APPARATUS FOR DETECTING NOISE IN UNSTRUCTURED DATA

Publication Number WO/2022/008263
Publication Date 13.01.2022
International Application No. PCT/EP2021/067422
International Filing Date 24.06.2021
IPC
G06F 16/31 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
31Indexing; Data structures therefor; Storage structures
G06F 16/25 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
25Integrating or interfacing systems involving database management systems
Applicants
  • TELEFONAKTIEBOLAGET LM ERICSSON (PUBL) [SE]/[SE]
Inventors
  • JAIN, Shubham
  • DE BUITLÉIR, Amy
Agents
  • ERICSSON
Priority Data
63/050,43010.07.2020US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) METHOD AND APPARATUS FOR DETECTING NOISE IN UNSTRUCTURED DATA
(FR) PROCÉDÉ ET APPAREIL DE DÉTECTION DE BRUIT DANS DES DONNÉES NON STRUCTURÉES
Abstract
(EN) A method of noise detection in unstructured data comprising obtaining an input file (502) containing input data, the input data being output from at least one network element and removing (504) predefined characters from the input data. Further, the method comprises calculating a similarity matrix (506) by comparing each line of the input data with other lines of the input data in the file, performing clustering (508) on the similarity matrix and assigning each row of the similarity matrix into one of at least two clusters, and identifying one of the clusters as containing noise (510) based on comparing deviation of length of lines of text in the at least two clusters. An apparatus implementing the method is also disclosed.
(FR) Procédé de détection de bruit dans des données non structurées consistant à obtenir un fichier d'entrée (502) contenant des données d'entrée, les données d'entrée étant émises par au moins un élément de réseau, et à supprimer (504) des caractères prédéfinis à partir des données d'entrée. En outre, le procédé consiste à calculer une matrice de similarité (506) par comparaison de chaque ligne des données d'entrée avec d'autres lignes des données d'entrée dans le fichier, par exécution d'un regroupement (508) sur la matrice de similarité et d'une attribution de chaque rangée de la matrice de similarité dans une grappe parmi au moins deux grappes, et par identification d'une des grappes comme contenant du bruit (510) sur la base d'une comparaison d'un écart de longueur de lignes de texte dans lesdites deux grappes. Un appareil mettant en œuvre le procédé est également divulgué.
Latest bibliographic data on file with the International Bureau