Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019024755) PROCÉDÉ, APPAREIL ET SYSTÈME D'EXTRACTION D'INFORMATIONS DE PAGE WEB, ET DISPOSITIF ÉLECTRONIQUE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2019/024755 N° de la demande internationale : PCT/CN2018/097187
Date de publication : 07.02.2019 Date de dépôt international : 26.07.2018
CIB :
G06F 17/30 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
30
Recherche documentaire; Structures de bases de données à cet effet
Déposants :
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
Inventeurs :
薛亮 XUE, Liang; CN
Mandataire :
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl., Block A, Corporate Square, No.35 Jinrong Street Beijing 100033, CN
Données relatives à la priorité :
201710647576.001.08.2017CN
Titre (EN) WEBPAGE INFORMATION EXTRACTION METHOD, APPARATUS AND SYSTEM, AND ELECTRONIC DEVICE
(FR) PROCÉDÉ, APPAREIL ET SYSTÈME D'EXTRACTION D'INFORMATIONS DE PAGE WEB, ET DISPOSITIF ÉLECTRONIQUE
(ZH) 网页信息提取方法、装置、系统及电子设备
Abrégé :
(EN) Provided are a webpage information extraction method, apparatus and system, and an electronic device. The method comprises: calculating and classifying text information in each block in a webpage to be processed by using a field classification model obtained through training in advance and falling within the same field as the webpage to be processed, so as to obtain a category of each block in this field; and performing information extraction on the text information in each block by means of an information extraction rule applicable to the category of the block, and forming structural data. The solution of the embodiments of the present invention aims to improve the efficiency and accuracy of extracting information from a webpage and reduce the cost of maintaining a model used for information extraction.
(FR) L'invention concerne un procédé, un appareil et un système d'extraction d'informations de page Web, et un dispositif électronique. Le procédé consiste à : calculer et classifier des informations textuelles dans chaque bloc d'une page web à traiter au moyen d'un modèle de classification de champ obtenu par un apprentissage préalable et qui se situe dans le même champ que la page web à traiter, de façon à obtenir une catégorie pour chaque bloc dans ce champ ; et mettre en oeuvre une extraction d'informations sur les informations textuelles de chaque bloc au moyen d'une règle d'extraction d'informations pouvant être appliquée à la catégorie du bloc, et former des données structurales. La solution présentée par les modes de réalisation de la présente invention vise à améliorer l'efficacité et la précision d'extraction d'informations provenant d'une page web, et à réduire le coût d'entretien d'un modèle utilisé pour l'extraction d'informations.
(ZH) 本发明实施例提供一种网页信息提取方法、装置、系统及电子设备,其中,方法包括:对待处理网页中各区块的文本信息采用预先训练得到的与待处理网页所属领域相同的领域分类模型进行计算分类,以得到各所述区块在该领域中所属的类别;对各所述区块内文本信息经与其所在区块所属类别相适用的信息提取规则进行信息提取,并形成结构化数据。本发明实施例的方案旨在提高从网页中提取信息的效率和准确性,同时降低维护用于提取信息所使用的模型的成本。
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)