WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2017202125) TEXT CLASSIFICATION METHOD AND APPARATUS
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.:    WO/2017/202125    International Application No.:    PCT/CN2017/077729
Publication Date: 30.11.2017 International Filing Date: 22.03.2017
IPC:
G06F 17/30 (2006.01)
Applicants: HUAWEI TECHNOLOGIES CO., LTD. [CN/CN]; Huawei Administration Building Bantian, Longgang District Shenzhen, Guangdong 518129 (CN)
Inventors: LIU, Bingyuan; (CN).
ZHANG, Xu; (CN)
Priority Data:
201610354930.6 25.05.2016 CN
Title (EN) TEXT CLASSIFICATION METHOD AND APPARATUS
(FR) PROCÉDÉ ET APPAREIL DE CLASSIFICATION DE TEXTE
(ZH) 文本分类方法及装置
Abstract: front page image
(EN)A text classification method and device, falling within the technical field of computers. The method comprises: for each keyword in a plurality of keywords included in a keyword library of a service information base, determining a word vector corresponding to the keyword according to a word vector model (301); based on the word vector corresponding to the keyword, determining a potential expansion word of the keyword (302); when an expansion rule input for the potential expansion word is received and when an addition instruction for the potential expansion word is detected, adding the potential expansion word into the keyword library, and adding the expansion rule to a matching rule base of the service information base (303); based on the keyword library and the matching rule base, determining, by a model matching classifier, a first probability that text to be classified belongs to each pre-set category of a plurality of pre-set categories (304); and based on the first probability that the text to be classified belongs to each pre-set category of a plurality of pre-set categories, determining, from the plurality of pre-set categories, a category to which the text to be classified belongs (305). The method can reduce the labour cost of constructing a service information base, and can improve the coverage rate and accuracy rate of text classification.
(FR)L'invention concerne un procédé et un dispositif de classification de texte se rapportant au domaine technique des ordinateurs. Le procédé comprend : pour chaque mot-clé d'une pluralité de mots-clés inclus dans une bibliothèque de mots-clés d'une base d'informations de service, la détermination d'un vecteur mot correspondant au mot-clé selon un modèle de vecteur mot (301) ; sur la base du vecteur mot correspondant au mot-clé, la détermination d'un mot d'expansion potentiel du mot-clé (302) ; lorsqu'une entrée de règle d'expansion pour le mot d'expansion potentiel est reçue et qu'une instruction d'ajout pour le mot d'expansion potentiel est détectée, l'ajout du mot d'expansion potentiel à la bibliothèque de mots-clés, et l'ajout de la règle d'expansion à une base de règles d'appariement de la base d'informations de service (303) ; conformément à la bibliothèque de mots-clés et à la base de règles d'appariement, la détermination, par un classificateur d'appariement de modèles, d'une première probabilité que le texte à classifier appartienne à chaque catégorie prédéfinie d'une pluralité de catégories prédéfinies (304) ; et, sur la base de la première probabilité que le texte à classifier appartienne à chaque catégorie prédéfinie d'une pluralité de catégories prédéfinies, la détermination, à partir de la pluralité de catégories prédéfinies, d'une catégorie à laquelle le texte à classifier appartient (305). Le procédé peut réduire le coût de main d'œuvre de la construction d'une base d'informations de service, et peut améliorer le taux de couverture et le taux de précision de classification de texte.
(ZH)一种文本分类方法及装置,属于计算机技术领域。所述方法包括:对于业务信息库的关键词库中包括的多个关键词中的每个关键词,根据词向量模型,确定关键词对应的词向量(301);基于该关键词对应的词向量,确定该关键词的潜在扩展词(302);当接收到针对该潜在扩展词输入的扩展规则,且当检测到针对该潜在扩展词的添加指令时,将该潜在扩展词添加到该关键词库中,并将该扩展规则添加到业务信息库的匹配规则库中(303);基于该关键词库和该匹配规则库,通过模式匹配分类器确定待分类的文本属于多个预设类别中每个预设类别的第一概率(304);基于该待分类的文本属于多个预设类别中每个预设类别的第一概率,从该多个预设类别中,确定该待分类的文本所属的类别(305)。该方法可以降低构建业务信息库的人工成本,且可以提高文本分类的覆盖率和准确率。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)