Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018103488) WEBPAGE SCRAPING METHOD AND SERVER
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/103488 International Application No.: PCT/CN2017/109752
Publication Date: 14.06.2018 International Filing Date: 07.11.2017
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
腾讯科技(深圳)有限公司 TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN/CN]; 中国广东省深圳市 南山区高新区科技中一路腾讯大厦35层 35/F,Tencent Building Kejizhongyi Road, Midwest District of Hi-tech Park, Nanshan District Shenzhen, Guangdong 518057, CN
Inventors:
程志峰 CHENG, Zhifeng; CN
邱柏宇 QIU, Baiyu; CN
Agent:
北京三高永信知识产权代理有限责任公司 BEIJING SAN GAO YONG XIN INTELLECTUAL PROPERTY AGENCY CO., LTD.; 中国北京市 海淀区学院路蓟门里和景园A座1单元102室 A-1-102,He Jing Yuan, Ji Men Li,Xueyuan Road Haidian District Beijing 100088, CN
Priority Data:
201611121344.308.12.2016CN
Title (EN) WEBPAGE SCRAPING METHOD AND SERVER
(FR) PROCÉDÉ ET SERVEUR DE MOISSONNAGE DE PAGES WEB
(ZH) 网页抓取方法及服务器
Abstract:
(EN) Disclosed in the embodiments of the present invention are a webpage scraping method and server, relating to the field of computer networks. The method comprises: scraping target webpages on a game website; on the basis of the webpage source code of the target webpages, identifying a webpage corresponding to an H5 game; implementing dynamic rendering of the webpage corresponding to the H5 game to obtain a rendered webpage; and extracting game details information corresponding to the H5 game from the rendered webpage. The embodiments of the present invention identify a webpage corresponding to an H5 game by means of the webpage source code, such that a server can extract game details information corresponding to the H5 game from the rendered webpage, avoiding the problem of scraping results requiring large-scale manual filtering and information extraction, and achieving the outcome of accurately identifying a webpage corresponding to an H5 game on the basis of the webpage source code and extracting game details information from said webpage, thereby improving the efficiency and accuracy of the extraction process.
(FR) La présente invention concerne, dans ses modes de réalisation, un procédé et un serveur de moissonnage de pages web, se rapportant au domaine des réseaux informatiques. Le procédé comporte les étapes consistant à: moissonner des pages web visées sur un site web de jeu; d'après le code source de page web des pages web visées, identifier une page web correspondant à un jeu H5; réaliser un rendu dynamique de la page web correspondant au jeu H5 pour obtenir une page web restituée; et extraire de la page web restituée des informations de détails de jeu correspondant au jeu H5. Les modes de réalisation de la présente invention identifient une page web correspondant à un jeu H5 au moyen du code source de page web, de telle façon qu'un serveur puisse extraire de la page web restituée des informations de détails de jeu correspondant au jeu H5, évitant le problème de la nécessité d'un filtrage manuel à grande échelle et d'une extraction d'information de résultats de moissonnage, et atteignant l'objectif de l'identification exacte d'une page web correspondant à un jeu H5 d'après le code source de page web et de l'extraction d'informations de détails de jeu de ladite page web, améliorant ainsi le rendement et la précision du processus d'extraction.
(ZH) 本发明实施例公开了一种网页抓取方法及服务器,属于计算机网络领域。所述方法包括:抓取游戏网站上的目标网页页面;根据目标网页页面的网页源代码,识别H5游戏对应的网页页面;对H5游戏对应的网页页面进行动态渲染,得到渲染后的网页页面;渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明实施例通过网页源代码识别出H5游戏对应的网页页面,使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息,避免了抓取结果需要大量人工来筛选和信息提取的问题,达到了根据网页的源代码准确识别H5游戏对应的网页页面,进行从网页页面中提取游戏详情信息,从而提高提取过程的效率和准确率的效果。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)