بعض محتويات هذا التطبيق غير متوفرة في الوقت الحالي.
إذا استمرت هذه الحالة ، يرجى الاتصال بنا علىتعليق وإتصال
1. (WO2019024755) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
أحدث البيانات الببلوغرافية المتوفرة لدى المكتب الدولي    تقديم ملاحظات

رقم النشر: WO/2019/024755 رقم الطلب الدولي: PCT/CN2018/097187
تاريخ النشر: 07.02.2019 تاريخ الإيداع الدولي: 26.07.2018
التصنيف الدولي للبراءات:
G06F 17/30 (2006.01)
Description not available in lang ar
المودعون:
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
المخترعون:
薛亮 XUE, Liang; CN
الوكيل:
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl., Block A, Corporate Square, No.35 Jinrong Street Beijing 100033, CN
بيانات الأولوية:
201710647576.001.08.2017CN
العنوان (EN) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
(FR) PROCÉDÉ, APPAREIL ET SYSTÈME D'EXTRACTION D'INFORMATIONS DE PAGE WEB, ET DISPOSITIF ÉLECTRONIQUE
(ZH) 网页信息提取方法、装置、系统及电子设备
الملخص:
(EN) Provided are a webpage information extraction method, apparatus and system, and an electronic device. The method comprises: calculating and classifying text information in each block in a webpage to be processed by using a field classification model obtained through training in advance and falling within the same field as the webpage to be processed, so as to obtain a category of each block in this field; and performing information extraction on the text information in each block by means of an information extraction rule applicable to the category of the block, and forming structural data. The solution of the embodiments of the present invention aims to improve the efficiency and accuracy of extracting information from a webpage and reduce the cost of maintaining a model used for information extraction.
(FR) L'invention concerne un procédé, un appareil et un système d'extraction d'informations de page Web, et un dispositif électronique. Le procédé consiste à : calculer et classifier des informations textuelles dans chaque bloc d'une page web à traiter au moyen d'un modèle de classification de champ obtenu par un apprentissage préalable et qui se situe dans le même champ que la page web à traiter, de façon à obtenir une catégorie pour chaque bloc dans ce champ ; et mettre en oeuvre une extraction d'informations sur les informations textuelles de chaque bloc au moyen d'une règle d'extraction d'informations pouvant être appliquée à la catégorie du bloc, et former des données structurales. La solution présentée par les modes de réalisation de la présente invention vise à améliorer l'efficacité et la précision d'extraction d'informations provenant d'une page web, et à réduire le coût d'entretien d'un modèle utilisé pour l'extraction d'informations.
(ZH) 本发明实施例提供一种网页信息提取方法、装置、系统及电子设备,其中,方法包括:对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取,并形成结构化数据。本发明实施例的方案旨在提高从网页中提取信息的效率和准确性,同时降低维护用于提取信息所使用的模型的成本。
front page image
الدول المعيّنة: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
المنظمة الإقليمية الأفريقية للملكية الفكرية (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
مكتب البراءات الأوروبي الآسيوي (AM, AZ, BY, KG, KZ, RU, TJ, TM)
المكتب الأوروبي للبراءات (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
المنظمة الأفريقية للملكية الفكرية (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
لغة النشر: صيني (ZH)
لغة الإيداع: صيني (ZH)