Search International and National Patent Collections
Some content of this application is unavailable at the moment.
If this situation persists, please contact us atFeedback&Contact
1. (WO2017096941) BACKGROUND REFRESHING METHOD BASED ON SPARK-SQL BIG DATA PROCESSING PLATFORM
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2017/096941 International Application No.: PCT/CN2016/095361
Publication Date: 15.06.2017 International Filing Date: 15.08.2016
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
深圳市华讯方舟软件技术有限公司 CHINA COMMUNICATION SOFTWARE TECHNOLOGY CO., LTD. [CN/CN]; 中国广东省深圳市 宝安区西乡街道宝田一路臣田工业区第37栋3楼 The 3rd Floor No.37 Building, Chentian Industrial Zone, 1st Baotian Road, Xixiang, Bao'an District Shenzhen, Guangdong 518102, CN
华讯方舟科技有限公司 CHINA COMMUNICATION TECHNOLOGY CO.,LTD. [CN/CN]; 中国广东省深圳市 宝安区西乡街道宝田一路臣田工业区37栋1楼及2楼靠西 The 1st Floor and the West Part of 2nd Floor No.37 Building, Chentian Industrial Zone, 1st Baotian Road, Xixiang, Bao'an District Shenzhen, Guangdong 518102, CN
Inventors:
王成 WANG, Cheng; CN
冯骏 FENG, Jun; CN
Agent:
北京律和信知识产权代理事务所(普通合伙) BEIJING LAWSING IP FIRM; 中国北京市 朝阳区朝阳门外大街18号丰联广场12层B1212 Room 1212, Fulllink Plaza No.18 Chaoyangmenwai Ave, Chaoyang District Beijing 100020, CN
Priority Data:
201510919868.611.12.2015CN
Title (EN) BACKGROUND REFRESHING METHOD BASED ON SPARK-SQL BIG DATA PROCESSING PLATFORM
(FR) PROCÉDÉ DE RAFRAÎCHISSEMENT D'ARRIÈRE-PLAN BASÉ SUR UNE PLATEFORME DE TRAITEMENT DE DONNÉES VOLUMINEUSES SPARK-SQL
(ZH) 一种基于Spark-SQL大数据处理平台的后台刷新方法
Abstract:
(EN) Disclosed in the present invention is a background refreshing method based on a Spark-SQL big data processing platform. A new process is created and a timed refreshing mechanism is set in an entry function of Spark-SQL, and a specified table space file directory structure of a Hadoop distributed file system (HDFS) is periodically scanned. Configuration items are added in a hive-site.xml under a conf folder of a Spark installation directory, and thus, whether to open a refreshing process, a refreshing interval and a big data table space set to be refreshed can be configured in a customized manner. In the present invention, under the background of big data, a first query time of the Spark-SQL big data processing platform is greatly reduced; taking 20T data as an example, a big data table is partitioned into 25 regions in a manner of taking hour as a first subregion, is partitioned into 1001 regions in a manner of taking first three digits of a mobile phone number as a second subregion, and is subjected to compressed storage according to a PARQUET format; for the query querying for a total amount of all data of a certain number section of a certain period of time, the original first query time is approximately 20 minutes, and by means of the background refreshing method optimized by the present invention, the time of the first query is reduced to approximately 45 seconds.
(FR) La présente invention concerne un procédé de rafraîchissement d'arrière-plan basé sur une plateforme de traitement de données volumineuses Spark-SQL. Un nouveau processus est créé et un mécanisme de rafraîchissement temporisé est réglé dans une fonction d'entrée de Spark-SQL, et une structure de répertoire de fichier d'espace de table spécifiée d'un système de fichier distribué Hadoop (HDFS) est balayée périodiquement. Des éléments de configuration sont ajoutés dans un hive-site.xml sous un dossier conf d'un répertoire d'installation Spark, et ainsi, le point de savoir d'ouvrir ou non un processus de rafraîchissement, un intervalle de rafraîchissement et un ensemble d'espaces de table de données volumineuses à rafraîchir peuvent être configurés d'une manière personnalisée. Dans la présente invention, sous l'arrière-plan de données volumineuses, un premier temps d'interrogation de la plateforme de traitement de données volumineuses Spark-SQL est fortement réduit; en prenant des données 20T en tant qu'exemple, une table de données volumineuses est partitionnée en 25 régions dans une manière prenant une heure en tant que première sous-région, est partitionnée en 1001 régions dans une manière prenant trois premiers chiffres d'un numéro de téléphone mobile en tant que seconde sous-région, et est soumise à un stockage compressé selon un format PARQUET; pour l'interrogation demandant une quantité totale de toutes les données d'une certaine section de numéro d'une certaine période de temps, le premier temps d'interrogation d'origine est approximativement de 20 minutes, et au moyen du procédé de rafraîchissement d'arrière-plan optimisé par la présente invention, le temps de la première interrogation est réduit à approximativement 45 secondes.
(ZH) 本发明公开了一种基于Spark-SQL大数据处理平台的后台刷新方法,在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制,定时扫描分布式文件系统HDFS的指定表空间文件目录结构。在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项,可以自定义配置刷新进程是否开启,刷新间隔与要刷新的大数据表空间集合。本发明在大数据的背景下,大幅缩短Spark-SQL大数据处理平台的首次查询时间;以20T数据为例,大数据表按照小时作为第一分区分为25个区,按照手机号码前3位作为第二分区分为1001个区,并按照PARQUET格式进行压缩存储,针对查询某个时间段某个号码段所有数据总数的查询,原来首次查询时间为20分钟左右,本发明所优化的后台刷新方法使得首次查询的时间缩短为45秒左右。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)