Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2019024755) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2019/024755 International Application No.: PCT/CN2018/097187
Publication Date: 07.02.2019 International Filing Date: 26.07.2018
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
Inventors:
薛亮 XUE, Liang; CN
Agent:
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl., Block A, Corporate Square, No.35 Jinrong Street Beijing 100033, CN
Priority Data:
201710647576.001.08.2017CN
Title (EN) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
(FR) PROCÉDÉ, APPAREIL ET SYSTÈME D'EXTRACTION D'INFORMATIONS DE PAGE WEB, ET DISPOSITIF ÉLECTRONIQUE
(ZH) 网页信息提取方法、装置、系统及电子设备
Abstract:
(EN) Provided are a webpage information extraction method, apparatus and system, and an electronic device. The method comprises: calculating and classifying text information in each block in a webpage to be processed by using a field classification model obtained through training in advance and falling within the same field as the webpage to be processed, so as to obtain a category of each block in this field; and performing information extraction on the text information in each block by means of an information extraction rule applicable to the category of the block, and forming structural data. The solution of the embodiments of the present invention aims to improve the efficiency and accuracy of extracting information from a webpage and reduce the cost of maintaining a model used for information extraction.
(FR) L'invention concerne un procédé, un appareil et un système d'extraction d'informations de page Web, et un dispositif électronique. Le procédé consiste à : calculer et classifier des informations textuelles dans chaque bloc d'une page web à traiter au moyen d'un modèle de classification de champ obtenu par un apprentissage préalable et qui se situe dans le même champ que la page web à traiter, de façon à obtenir une catégorie pour chaque bloc dans ce champ ; et mettre en oeuvre une extraction d'informations sur les informations textuelles de chaque bloc au moyen d'une règle d'extraction d'informations pouvant être appliquée à la catégorie du bloc, et former des données structurales. La solution présentée par les modes de réalisation de la présente invention vise à améliorer l'efficacité et la précision d'extraction d'informations provenant d'une page web, et à réduire le coût d'entretien d'un modèle utilisé pour l'extraction d'informations.
(ZH) 本发明实施例提供一种网页信息提取方法、装置、系统及电子设备,其中,方法包括:对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取,并形成结构化数据。本发明实施例的方案旨在提高从网页中提取信息的效率和准确性,同时降低维护用于提取信息所使用的模型的成本。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)