Einige Inhalte dieser Anwendung sind momentan nicht verfügbar.
Wenn diese Situation weiterhin besteht, kontaktieren Sie uns bitte unterFeedback&Kontakt
1. (WO2019024755) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
Aktuellste beim Internationalen Büro vorliegende bibliographische Daten    Einwendung einreichen

Veröff.-Nr.: WO/2019/024755 Internationale Anmeldenummer PCT/CN2018/097187
Veröffentlichungsdatum: 07.02.2019 Internationales Anmeldedatum: 26.07.2018
IPC:
G06F 17/30 (2006.01)
G Physik
06
Datenverarbeitung; Rechnen; Zählen
F
Elektrische digitale Datenverarbeitung
17
Digitale Rechen- oder Datenverarbeitungsanlagen oder -verfahren, besonders angepasst an spezielle Funktionen
30
Wiederauffinden von Informationen; Struktur der Datenbasis dafür
Anmelder:
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
Erfinder:
薛亮 XUE, Liang; CN
Vertreter:
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl., Block A, Corporate Square, No.35 Jinrong Street Beijing 100033, CN
Prioritätsdaten:
201710647576.001.08.2017CN
Titel (EN) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
(FR) PROCÉDÉ, APPAREIL ET SYSTÈME D'EXTRACTION D'INFORMATIONS DE PAGE WEB, ET DISPOSITIF ÉLECTRONIQUE
(ZH) 网页信息提取方法、装置、系统及电子设备
Zusammenfassung:
(EN) Provided are a webpage information extraction method, apparatus and system, and an electronic device. The method comprises: calculating and classifying text information in each block in a webpage to be processed by using a field classification model obtained through training in advance and falling within the same field as the webpage to be processed, so as to obtain a category of each block in this field; and performing information extraction on the text information in each block by means of an information extraction rule applicable to the category of the block, and forming structural data. The solution of the embodiments of the present invention aims to improve the efficiency and accuracy of extracting information from a webpage and reduce the cost of maintaining a model used for information extraction.
(FR) L'invention concerne un procédé, un appareil et un système d'extraction d'informations de page Web, et un dispositif électronique. Le procédé consiste à : calculer et classifier des informations textuelles dans chaque bloc d'une page web à traiter au moyen d'un modèle de classification de champ obtenu par un apprentissage préalable et qui se situe dans le même champ que la page web à traiter, de façon à obtenir une catégorie pour chaque bloc dans ce champ ; et mettre en oeuvre une extraction d'informations sur les informations textuelles de chaque bloc au moyen d'une règle d'extraction d'informations pouvant être appliquée à la catégorie du bloc, et former des données structurales. La solution présentée par les modes de réalisation de la présente invention vise à améliorer l'efficacité et la précision d'extraction d'informations provenant d'une page web, et à réduire le coût d'entretien d'un modèle utilisé pour l'extraction d'informations.
(ZH) 本发明实施例提供一种网页信息提取方法、装置、系统及电子设备,其中,方法包括:对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取,并形成结构化数据。本发明实施例的方案旨在提高从网页中提取信息的效率和准确性,同时降低维护用于提取信息所使用的模型的成本。
front page image
Designierte Staaten: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasische Patentorganisation (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Europäisches Patentamt (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Veröffentlichungssprache: Chinesisch (ZH)
Anmeldesprache: Chinesisch (ZH)