Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018219284) METHOD AND APPARATUS FOR CLUSTERING DATA STREAM
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/219284 International Application No.: PCT/CN2018/088948
Publication Date: 06.12.2018 International Filing Date: 30.05.2018
IPC:
G06K 9/62 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
K
RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9
Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62
Methods or arrangements for recognition using electronic means
Applicants:
周俊 ZHOU, Jun [CN/CN]; CN (US)
李小龙 LI, Xiaolong [US/CN]; CN (US)
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place, P.O. Box 847, George Town, Grand Cayman, KY
Inventors:
周俊 ZHOU, Jun; CN
李小龙 LI, Xiaolong; CN
Agent:
北京国昊天诚知识产权代理有限公司 CO-HORIZON INTELLECTUAL PROPERTY INC.; 中国北京市 朝阳区小关北里甲2号渔阳置业大厦B座605 Suite 605, B Block,Yuyang Zhiye Building, No. A2 Xiaoguanbeili, Chaoyang District Beijing 100029, CN
Priority Data:
201710400902.831.05.2017CN
Title (EN) METHOD AND APPARATUS FOR CLUSTERING DATA STREAM
(FR) PROCÉDÉ ET APPAREIL DE REGROUPEMENT DE FLUX DE DONNÉES
(ZH) 数据流的聚类方法和装置
Abstract:
(EN) Provided is a method for clustering a data stream. The data stream comprises several data partitions having a timing relationship. The method comprises: acquiring resulting models of N preceding data partitions before a current data partition, wherein N is a natural number not less than 2, each of the resulting models is generated according to a clustering result of a corresponding preceding data partition, and each of the resulting models comprises representative parameters of each category; according to the N resulting models, determining a starting model of the current data partition, wherein representative parameters of each category in the starting model are determined by means of representative parameters of the same category in the N resulting models; and using the starting model to cluster data records in the current data partition. The technical solution of the present application enables a clustering result of a current data partition to have both long-term efficacy and effectiveness in terms of time, thus preventing severe jitter of the clustering result, and improving the stability of a service while providing support to timeliness of the service.
(FR) L'invention concerne un procédé de regroupement d'un flux de données. Le flux de données comprend plusieurs partitions de données ayant une relation de synchronisation. Le procédé consiste à : acquérir des modèles résultants de N partitions de données précédentes préalablement à une partition de données courante, N étant un nombre naturel non inférieur à 2, chacun des modèles résultants est généré en fonction d'un résultat de regroupement d'une partition de données précédente correspondante, et chacun des modèles résultants comprend des paramètres représentatifs de chaque catégorie; en fonction des N modèles obtenus, déterminer un modèle de départ de la partition de données courante, des paramètres représentatifs de chaque catégorie dans le modèle de départ étant déterminés au moyen de paramètres représentatifs de la même catégorie dans les N modèles résultants; et utiliser le modèle de départ pour regrouper des enregistrements de données dans la partition de données courante. La solution technique de la présente invention permet à un résultat de regroupement d'une partition de données courante d'avoir à la fois une efficacité long terme et une efficience en termes de temps, ce qui permet d'empêcher une gigue sévère du résultat de regroupement, et d'améliorer la stabilité d'un service tout en fournissant un support à la rapidité du service.
(ZH) 本申请提供一种数据流的聚类方法,所述数据流包括具有时序关系的若干个数据分区,所述方法包括:获取当前数据分区之前的N个在先数据分区的结果模型,N为不小于2的自然数;所述每个结果模型根据对应的在先数据分区的聚类结果生成,每个结果模型中包括每个类别的代表参数;根据所述N个结果模型确定当前数据分区的起始模型,所述起始模型中每个类别的代表参数由所述N个结果模型中相同类别的代表参数确定;采用起始模型对当前数据分区中的数据记录进行聚类。本申请的技术方案使当前数据分区的聚类结果同时兼具长效性和时效性,避免了聚类结果的严重抖动,在为业务的及时性提供支持的同时,提高了业务的平稳度。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)