Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2018219163) PROCÉDÉ DE TRAITEMENT DE GROUPE DISTRIBUÉ DANS UN ENVIRONNEMENT MAPREDUCE POUR DES DONNÉES À GRANDE ÉCHELLE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2018/219163 N° de la demande internationale : PCT/CN2018/087567
Date de publication : 06.12.2018 Date de dépôt international : 18.05.2018
CIB :
G06F 17/30 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
30
Recherche documentaire; Structures de bases de données à cet effet
Déposants :
东北大学 NORTHEASTERN UNIVERSITY [CN/CN]; 中国辽宁省沈阳市 和平区文化路三巷11号 No. 3-11, Wenhua Road, Heping District Shenyang, Liaoning 110819, CN
Inventeurs :
高天寒 GAO, Tianhan; CN
孔雪 KONG, Xue; CN
Mandataire :
沈阳东大知识产权代理有限公司 SHENYANG DONGDA INTELLECTUAL PROPERTY AGENCY CO., LTD; 中国辽宁省沈阳市 和平区文化路三巷11号 No. 3-11, Wenhua Road, Heping District Shenyang, Liaoning 110819, CN
Données relatives à la priorité :
201710412014.802.06.2017CN
Titre (EN) MAPREDUCE-BASED DISTRIBUTED CLUSTER PROCESSING METHOD FOR LARGE-SCALE DATA
(FR) PROCÉDÉ DE TRAITEMENT DE GROUPE DISTRIBUÉ DANS UN ENVIRONNEMENT MAPREDUCE POUR DES DONNÉES À GRANDE ÉCHELLE
(ZH) 一种基于MapReduce的大规模数据分布式聚类处理方法
Abrégé :
(EN) Provided by the present invention is a MapReduce-based distributed cluster processing method for large-scale data, which comprises: sampling large-scale data according to an equal-scale non-repetition principle; inputting the sampled data into a MapReduce distributed parallel framework, and calculating the local density and average density of the sampled data; finding all sampled data having a local density greater than the average density to serve as a candidate point set of initial cluster center points for each cluster, and feeding the candidate point set back to a master node, wherein every two adjacent candidate points at a distance from each other which is greater than twice that of a set range are selected to serve as the initial cluster center points; using the MapReduce distributed parallel framework to perform a parallel clustering task, wherein an average value of the distance between the data is calculated for each cluster in order to update the cluster center points; child nodes applying an error sum of squares criterion function so as to determine whether to continue iteration; the child nodes performing clustering on the large-scale data according to the cluster center points. By means of the present invention, parallel clustering is implemented, thereby reducing the number of clustering iterations, while increasing clustering accuracy and the efficiency of parallel clustering.
(FR) La présente invention concerne un procédé de traitement de groupe distribué dans un environnement MapReduce pour des données à grande échelle, qui consiste : à échantillonner des données à grande échelle selon un principe de non-répétition à échelle égale; à entrer les données échantillonnées dans un cadre parallèle distribué MapReduce, et à calculer la densité locale et la densité moyenne des données échantillonnées; à trouver toutes les données échantillonnées ayant une densité locale supérieure à la densité moyenne pour servir d'ensemble de points candidats de points centraux de groupe initial pour chaque groupe, et à fournir l'ensemble de points candidats à un nœud maître, tous les deux points candidats adjacents à une distance l'un de l'autre qui est supérieure à deux fois celle d'une plage définie étant sélectionnés pour servir de points centraux de groupe initial; à utiliser le cadre parallèle distribué MapReduce pour effectuer une tâche de groupement parallèle, une valeur moyenne de la distance entre les données étant calculée pour chaque groupe afin de mettre à jour les points centraux de groupe; à appliquer, par des nœuds enfants, une somme d'erreurs de fonction de critère de carrés de façon à déterminer s'il faut poursuivre l'itération ou pas; à effectuer, par les nœuds enfants, un groupement sur les données à grande échelle selon les points centraux de groupe. Au moyen de la présente invention, un groupement parallèle est mis en œuvre, ce qui réduit le nombre d'itérations de groupement, tout en augmentant la précision de groupement et l'efficacité de groupement parallèle.
(ZH) 本发明提供一种基于MapReduce的大规模数据分布式聚类处理方法,包括对大规模数据以等规模不重复的原则进行抽样;向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度;找出局部密度大于平均密度的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点,选取每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点;利用MapReduce分布式并行框架进行并行聚类任务,针对每个簇计算数据间距离的平均值来更新聚类中心点;子节点应用误差平方和准则函数判断是否继续迭代;各子节点根据聚类中心点对大规模数据进行聚类。本发明实现并行聚类,减少聚类迭代次数,提高聚类准确率和并行聚类效率。
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)