Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019041629) PROCÉDÉ DE CLASSIFICATION DE DONNÉES DÉSÉQUILIBRÉES DE GRANDE DIMENSION BASÉ SUR LES SVM
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2019/041629 N° de la demande internationale : PCT/CN2017/115847
Date de publication : 07.03.2019 Date de dépôt international : 13.12.2017
CIB :
G06K 9/62 (2006.01) ,G06F 17/30 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
K
RECONNAISSANCE DES DONNÉES; PRÉSENTATION DES DONNÉES; SUPPORTS D'ENREGISTREMENT; MANIPULATION DES SUPPORTS D'ENREGISTREMENT
9
Méthodes ou dispositions pour la lecture ou la reconnaissance de caractères imprimés ou écrits ou pour la reconnaissance de formes, p.ex. d'empreintes digitales
62
Méthodes ou dispositions pour la reconnaissance utilisant des moyens électroniques
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
30
Recherche documentaire; Structures de bases de données à cet effet
Déposants :
哈尔滨工业大学深圳研究生院 HARBIN INSTITUTE OF TECHNOLOGY SHENZHEN GRADUATE SCHOOL [CN/CN]; 中国广东省深圳市 南山区桃源街道深圳大学城哈工大校区 HIT Campus of University Town of Shenzhen, Taoyuan Street, Nanshan District Shenzhen, Guangdong 518000, CN
Inventeurs :
张春慨 ZHANG, Chunkai; CN
Mandataire :
深圳市添源知识产权代理事务所(普通合伙) SHENZHEN TIANYUAN INTELLECTUAL PROPERTY AGENCY (GENERAL PARTNERSHIP); 中国广东省深圳市 福田区沙头街道车公庙深南大道南侧中国有色大厦823、824 Room 823-824, Zhongguo Youse Building, the South of Shennan Road, Che Gongmiao, Shatou Street, Futian District Shenzhen, Guangdong 518000, CN
Données relatives à la priorité :
201710763329.730.08.2017CN
Titre (EN) METHOD FOR CLASSIFYING HIGH-DIMENSIONAL IMBALANCED DATA BASED ON SVM
(FR) PROCÉDÉ DE CLASSIFICATION DE DONNÉES DÉSÉQUILIBRÉES DE GRANDE DIMENSION BASÉ SUR LES SVM
(ZH) 基于SVM的高维不平衡数据分类方法
Abrégé :
(EN) A method for classifying high-dimensional imbalanced data based on SVM, comprising two parts. The first part is feature selection, involving: using an SVM-BRFE algorithm to resample a boundary to look for an optimal feature weight so as to carry out feature importance measurement, feature selection and training set update, and repeating the process. Finally, the feature most conductive to enhancing an F1 value is retained, and other features are removed, so that a subsequent training process is carried out in a situation with feature redundancy and irrelevant feature combination as less as possible and dimension as low as possible, thereby reducing the influence of a high dimension problem on an imbalance problem and the constraint over an SMOTE oversampling algorithm. The second part is data sampling, involving: using an improved SMOTE algorithm, i.e. a PBKS algorithm; considering to use minority classes in boundaries automatically partitioned by SVM as distance constraints in DHxij of a Hilbert space so as to replace an original constraint; and using a grid method to look for the approximate preimage. The method can stably and effectively complete the task of classifying high-dimensional unbalanced data, and can achieve a considerable effect.
(FR) L'invention concerne un procédé de classification de données déséquilibrées de grande dimension basé sur les SVM, comprenant deux parties. La première partie est une sélection de caractéristiques, consistant à : utiliser un algorithme SVM-BRFE pour rééchantillonner une limite pour rechercher une pondération de caractéristique optimale de façon à effectuer une mesure d'importance de caractéristique, une sélection de caractéristique et une mise à jour d'ensemble d'apprentissage, et répéter le processus. Enfin, la caractéristique la plus favorable à l'amélioration d'une valeur F1 est conservée, et d'autres caractéristiques sont supprimées, de sorte qu'un processus d'apprentissage ultérieur soit réalisé dans une situation avec une redondance de caractéristiques et une combinaison de caractéristiques non pertinentes aussi faibles que possible et une dimension aussi basse que possible, ce qui réduit l'influence d'un problème de grande dimension sur un problème de déséquilibre et la contrainte sur un algorithme de suréchantillonnage SMOTE. La deuxième partie est un échantillonnage de données, consistant à : utiliser un algorithme SMOTE amélioré, c'est-à-dire un algorithme PBKS ; considérer l'utilisation de classes minoritaires dans des limites partitionnées automatiquement par SVM comme des contraintes de distance dans DHxij d'un espace de Hilbert de façon à remplacer une contrainte d'origine ; et utiliser une méthode de grille pour rechercher la préimage approximative. Le procédé peut effectuer de manière stable et efficace la tâche de classification de données non équilibrées de grande dimension, et peut obtenir un effet considérable.
(ZH) 一种基于SVM的高维不平衡数据分类方法,包括两部分,第一部分是特征选择,采用SVM-BRFE算法对边界进行重采样以寻找最优特征权重以衡量特征重要程度、特征选择、更新训练集并重复以上过程,最终保留最有利于提升F1值的特征,其他特征将被剔除,使得后续的训练过程在一个特征冗余、无关特征组合尽量少和维数尽量低的情况下进行,减少了高维问题对不平衡问题的影响和对SMOTE过采样算法的束缚;第二部分是数据采样,采用改进的SMOTE算法,即PBKS算法,考虑利用SVM自动划分出的边界中的少数类作为希尔伯特空间下DHxij中的距离约束,以此来取代原始约束,并采用网格法来寻找该近似原像。该方法能稳定有效的完成高维不平衡数据的分类任务,并能取得可观的效果。
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)