Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2017173929) UNSUPERVISED FEATURE SELECTION METHOD AND DEVICE
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2017/173929 International Application No.: PCT/CN2017/077997
Publication Date: 12.10.2017 International Filing Date: 24.03.2017
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED; 开曼群岛大开曼资本大厦一座四层847号邮箱 Fourth Floor, One Capital Place P.O. Box 847 George Town, Grand Cayman, KY
Inventors:
黄光远 HUANG, Guangyuan; CN
兰金鹤 LAN, Jinhe; CN
麦港林 MAI, Ganglin; CN
Agent:
北京三友知识产权代理有限公司 BEIJING SANYOU INTELLECTUAL PROPERTY AGENCY LTD.; 中国北京市 金融街35号国际企业大厦A座16层 16th Fl., Block A, Corporate Square No. 35 Jinrong Street Beijing 100033, CN
Priority Data:
201610205887.705.04.2016CN
Title (EN) UNSUPERVISED FEATURE SELECTION METHOD AND DEVICE
(FR) PROCÉDÉ ET DISPOSITIF DE SÉLECTION DE CARACTÉRISTIQUE SANS SURVEILLANCE
(ZH) 无监督的特征选择方法、装置
Abstract:
(EN) Disclosed are an unsupervised feature selection method and device. In the method, a feature topology diagram is firstly constructed according to the similarity between features, and then the feature topology diagram is divided, so that feature nodes with a relatively high similarity are divided into the same connected graph to realize the feature clustering of sample data, and thus the features of the sample data can also be selected in a scenario where a classification mark of the sample data cannot be pre-determined; after the feature clustering is completed through the connected graph, a node can be further selected from each connected graph, and the features corresponding to the node are written into a target feature set as representative features, so as to obtain comprehensive and non-repetitive representative features corresponding to the entire sample data. Therefore, in the present application, without needing to depend on a classification mark of sample data, unsupervised feature selection can be achieved, and it is ensured that two or more similar features do not appear in a target feature set, so that the target feature set can describe the sample data more intuitively, thereby avoiding information redundancy.
(FR) L’invention concerne un procédé et un dispositif de sélection de caractéristique sans surveillance. Dans le procédé, un schéma de topologie de caractéristique est premièrement construit selon la similarité entre des caractéristiques, puis le schéma de topologie de caractéristique est divisé, de telle sorte que des nœuds de caractéristique ayant une similarité relativement élevée sont divisés en le même graphique relié pour réaliser le groupement de caractéristiques de données d’échantillon, et ainsi, les caractéristiques des données d’échantillon peuvent également être sélectionnées dans un scénario dans lequel un repère de classification des données d’échantillon ne peut pas être prédéterminé ; après que le groupement de caractéristiques est achevé par l’intermédiaire du graphique relié, un nœud peut en outre être sélectionné à partir de chaque graphique relié, et les caractéristiques correspondant au nœud sont écrites dans un ensemble de caractéristiques cible comme caractéristiques représentatives, de façon à obtenir des caractéristiques représentatives complètes et non répétitives correspondant aux données d’échantillon entier. Par conséquent, dans la présente invention, sans avoir besoin de dépendre d’un repère de classification de données d’échantillon, une sélection de caractéristique sans surveillance peut être obtenue, et il est garanti qu’au moins deux caractéristiques similaires n’apparaissent pas dans un ensemble de caractéristiques cible, de telle sorte que l’ensemble de caractéristiques cible peut décrire les données d’échantillon de manière plus intuitive, permettant ainsi d’éviter une redondance d’informations.
(ZH) 本申请公开一种无监督的特征选择方法、装置,其首先根据特征之间的相似度构建特征拓扑图,然后将该特征拓扑图进行分割,使得相似度较高的特征节点划分在同一个连通图中,实现对样本数据的特征聚类,从而在无法预先确定样本数据的分类标示的场景下也可以对样本数据的特征进行选择;在通过连通图完成特征聚类后,进一步可以从每个连通图中选出一个节点,并将该节点对应的特征为代表特征,记入目标特征集,从而得到整个样本数据对应的全面且不重复的代表特征。因此,本申请不需要依赖样本数据的分类标示,可以实现无监督的特征选择,且保证目标特征集中不会出现两个或两个以上相类似的特征,使得目标特征集可以更直观地描述样本数据,避免信息冗余。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)