Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2017148267) TEXT INFORMATION CLUSTERING METHOD AND TEXT INFORMATION CLUSTERING SYSTEM
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2017/148267 International Application No.: PCT/CN2017/073720
Publication Date: 08.09.2017 International Filing Date: 16.02.2017
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛英属开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
Inventors:
付子豪 FU, Zihao; CN
张凯 ZHANG, Kai; CN
蔡宁 CAI, Ning; CN
杨旭 YANG, Xu; CN
褚崴 CHU, Wei; CN
Agent:
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl.,Block A,Corporate Square,No.35 Jinrong Street Beijing 100033, CN
Priority Data:
201610112522.X29.02.2016CN
Title (EN) TEXT INFORMATION CLUSTERING METHOD AND TEXT INFORMATION CLUSTERING SYSTEM
(FR) PROCÉDÉ D’AGRÉGATION D’INFORMATIONS DE TEXTE ET SYSTÈME D’AGRÉGATION D’INFORMATIONS DE TEXTE
(ZH) 一种文本信息聚类方法和文本信息聚类系统
Abstract:
(EN) A text information clustering method and system. The clustering method comprises the following steps: performing word segmentation on each of multiple pieces of text information, so as to form multiple words (S101); performing initial clustering on the multiple pieces of text information on which word segmentation has been performed, so as to form multiple first-level subjects, each first-level subject comprising at least two pieces of text information (S102); determining the number of second-level subjects under each first-level subject according to the number of pieces of text information under each first-level subject (S103); and performing secondary clustering on at least two pieces of text information comprised in each first-level subject according to the number of second-level subjects under each first-level subject, so as to form multiple second-level subjects (S104). By using the layered clustering method, the total number of first-level subjects is decreased in initial clustering, thereby accelerating the computing efficiency; in secondary clustering, the number of second-level subjects is dynamically determined according to the number of pieces of text information, thereby accelerating the computing speed of the second-level subjects.
(FR) L’invention concerne un procédé et un système d’agrégation d’informations de texte. Les étapes du procédé d’agrégation consistent : à procéder à une segmentation de mots sur chaque partie parmi des parties multiples d’informations de texte, afin de former des mots multiples (S101) ; à procéder à une agrégation initiale des parties multiples d’informations de texte sur lesquelles la segmentation de mots a été réalisée, afin de former des sujets multiples de premier niveau, chaque sujet de premier niveau comprenant au moins deux parties d’informations de texte (S102) ; à déterminer le nombre de sujets de deuxième niveau sous chaque sujet de premier niveau selon le nombre de parties d’informations de texte sous chaque sujet de premier niveau (S103) ; et à procéder à une agrégation secondaire sur au moins deux parties d’informations de texte comprises dans chaque sujet de premier niveau selon le nombre de sujets de deuxième niveau sous chaque sujet de premier niveau, afin de former des sujets multiples de deuxième niveau (S104). Grâce au procédé d’agrégation par couches, le nombre total de sujets de premier niveau est réduit dans l’agrégation initiale, accélérant ainsi l’efficacité de calcul ; dans l’agrégation secondaire, le nombre de sujets de deuxième niveau est déterminé dynamiquement selon le nombre de parties d’informations de texte, accélérant ainsi la vitesse de calcul des sujets de deuxième niveau.
(ZH) 一种文本信息聚类方法和系统,该聚类方法包括如下步骤:将多则文本信息中的每一则文本信息进行分词处理,形成多个字词(S101);对分词处理后的所述多则文本信息进行初次聚类,形成多个一级主题,每个所述一级主题包括至少两则文本信息(S102);根据每个所述一级主题下文本信息的数目,确定每个所述一级主题下二级主题的个数(S103);根据每个所述一级主题下二级主题的个数,对每个所述一级主题中包括的至少两则文本信息进行二次聚类,形成多个二级主题(S104)。采用层次化聚类的方法,在初次聚类时,减少了总的一级主题的个数,加快了计算效率;在二次聚类时,根据文本信息数目动态确定二级主题的个数,加快了二级主题的计算速度。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)