Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2021035843 - PROCÉDÉ DE DÉDUPLICATION DE MÉGADONNÉES DE RÉSEAU SISMIQUE BASÉ SUR UN ALGORITHME D'UN FILTRE DE BLOOM

Numéro de publication WO/2021/035843
Date de publication 04.03.2021
N° de la demande internationale PCT/CN2019/106832
Date du dépôt international 20.09.2019
CIB
G06F 16/215 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
20de données structurées, p.ex. de données relationnelles
21Conception, administration ou maintenance des bases de données
215Amélioration de la qualité des données; Nettoyage des données, p.ex. déduplication, suppression des entrées non valides ou correction des erreurs typographiques
G06F 16/22 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
20de données structurées, p.ex. de données relationnelles
22Indexation; Structures de données à cet effet; Structures de stockage
CPC
G06F 16/215
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
21Design, administration or maintenance of databases
215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
G06F 16/221
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
22Indexing; Data structures therefor; Storage structures
221Column-oriented storage; Management thereof
Déposants
  • 东北大学 NORTHEASTERN UNIVERSITY [CN]/[CN]
Inventeurs
  • 王英男 WANG, Yingnan
  • 任涛 REN, Tao
  • 田宜聪 TIAN, Yicong
  • 王柳婷 WANG, Liuting
  • 张钧桓 ZHANG, Junhuan
Mandataires
  • 沈阳东大知识产权代理有限公司 SHENYANG DONGDA INTELLECTUAL PROPERTY AGENCY CO.,LTD
Données relatives à la priorité
201910800615.528.08.2019CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) SEISMIC NETWORK BIG DATA DEDUPLICATION METHOD BASED ON BLOOM FILTER ALGORITHM
(FR) PROCÉDÉ DE DÉDUPLICATION DE MÉGADONNÉES DE RÉSEAU SISMIQUE BASÉ SUR UN ALGORITHME D'UN FILTRE DE BLOOM
(ZH) 基于布隆过滤器算法的地震台网大数据去重的方法
Abrégé
(EN)
A seismic network big data deduplication method based on a bloom filter algorithm. The method comprises: step 1, receiving a plurality of paths of data stream data by means of a TCP/IP protocol, performing an unpacking operation according to bytes, and parsing each unpacked packet; step 2, performing first deduplication filtering determination on all data packets on which unpacking processing is performed, and storing the data packets to a bloom filter; step 3, determining whether second deduplication filtering needs to be performed on the parsed data packets comprising specific-meaning fields, and storing the parsed data packets to an HBase database; step 4, parsing the data packets stored into the HBase database into a seismic data MSEED format, storing the data packets to a disk for permanent storage, and when the data packets need to be output, automatically naming same in the form of a combination of a network name, a station name, a channel, a sampling rate, and a time; step 5, performing, using an obspy.merge method, third deduplication determination on the data packets stored into the HBase database; and step 6, establishing a connection by means of the TCP/IP protocol to implement forwarding, by a server, the processed data packets in the form of data streams, and continuously monitoring whether a sending port has a request. The method functionally converges a plurality of paths of data streams into a single path of data stream, and implements real-time big data deduplication by means of first deduplication by a bloom filter, second duplication by an HBase database, and third deduplication by an obspy.merge method.
(FR)
L'invention concerne un procédé de déduplication de mégadonnées de réseau sismique basé sur un algorithme d'un filtre de Bloom. Le procédé consiste à : étape 1, recevoir une pluralité de trajets de données de flux de données au moyen d'un protocole TCP/IP, réaliser une opération de décompression en fonction des octets, et analyser chaque paquet décompressé; étape 2, effectuer une première détermination de filtrage de déduplication sur tous les paquets de données sur lesquels un traitement de décompression est effectué, et stocker les paquets de données dans un filtre de Bloom; étape 3, déterminer si un second filtrage de déduplication doit être effectué sur les paquets de données analysés comprenant des champs de sens spécifique, et stocker les paquets de données analysés dans une base de données HBase; étape 4, analyser les paquets de données stockés dans la base de données HBase en un format de données sismiques MSEED, stocker les paquets de données sur un disque pour un stockage permanent, et lorsque les paquets de données doivent être délivrés, les nommer automatiquement sous la forme d'une combinaison d'un nom de réseau, d'un nom de station, d'un canal, d'un taux d'échantillonnage et d'un temps; étape 5, réaliser, à l'aide d'un procédé obspy.merge, une troisième détermination de déduplication sur les paquets de données stockés dans la base de données HBase; et étape 6, établir une connexion au moyen du protocole TCP/IP pour effectuer un transfert, par un serveur, des paquets de données traités sous la forme de flux de données, et surveiller en continu si un port d'envoi a une requête. Le procédé fait converger fonctionnellement une pluralité de trajets de flux de données en un seul trajet de flux de données, et effectue une déduplication de mégadonnées en temps réel au moyen d'une première déduplication par un filtre de Bloom, d'une deuxième duplication par une base de données HBase, et d'une troisième déduplication par un procédé de obspy.merge.
(ZH)
一种基于布隆过滤器算法的地震台网大数据去重的方法,该方法包括:步骤1通过TCP/IP协议接收多路数据流数据,并按字节进行拆包操作,并对拆包后的每个包进行解析;步骤2将经过拆包处理后的所有数据包进行一次去重过滤判断,并存储到布隆过滤器中;步骤3对解析出的包含特定含义字段的数据包进行判断是否需要二次去重过滤,并存储到HBase数据库中;步骤4将存储到HBase数据库中的数据包解析为地震数据MSEED格式,并存储到磁盘中永久保存,需要输出时以台网名、台站名、通道、采样率和时间组合的方式进行自动命名;步骤5利用obspy.merge方法对存储到HBase数据库中的数据包进行三次去重判断;步骤6通过TCP/IP协议建立连接,实现服务器端,将处理后的数据包以数据流的方式转发出去,并持续监听发送端口是否有请求。该方法从功能上将多路数据流汇总成单路数据流,通过布隆过滤器的一次去重、HBase数据库的二次去重以及obspy.merge方法的三次去重实现实时大数据的去重。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international