Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Goto Application

1. WO2020093718 - PROCÉDÉ ET APPAREIL DE RÉ-ÉCHANTILLONNAGE DE DONNÉES D'APPRENTISSAGE, SUPPORT DE MÉMOIRE ET DISPOSITIF ÉLECTRONIQUE

Numéro de publication WO/2020/093718
Date de publication 14.05.2020
N° de la demande internationale PCT/CN2019/094741
Date du dépôt international 04.07.2019
CIB
G06F 16/26 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
20de données structurées, p.ex. de données relationnelles
26Exploration de données visuelles; Navigation dans des données structurées
Déposants
  • 北京字节跳动网络技术有限公司 BEIJING BYTEDANCE NETWORK TECHNOLOGY CO., LTD. [CN]/[CN]
Inventeurs
  • 李伟健 LI, Weijian
  • 王长虎 WANG, Changhu
Mandataires
  • 北京市立方律师事务所 LIFANG & PARTNERS
Données relatives à la priorité
201811327417.308.11.2018CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) TRAINING DATA RE-SAMPLING METHOD AND APPARATUS, AND STORAGE MEDIUM AND ELECTRONIC DEVICE
(FR) PROCÉDÉ ET APPAREIL DE RÉ-ÉCHANTILLONNAGE DE DONNÉES D'APPRENTISSAGE, SUPPORT DE MÉMOIRE ET DISPOSITIF ÉLECTRONIQUE
(ZH) 训练数据重采样方法、装置、存储介质及电子设备
Abrégé
(EN)
Disclosed are a training data re-sampling method and apparatus, and a storage medium and an electronic device. The method comprises: acquiring first original data within a first time period (S101); calculating respective first proportions of multiple pre-set classifications in the first original data (S102); sorting the multiple pre-set classifications according to a size relationship of the first proportions and a pre-set rule so as to obtain a first sorting result (S103); determining, according to the first sorting result of the pre-set classifications and a pre-set correlation, a sampling proportion corresponding to each pre-set classification (S104), wherein the pre-set correlation is a correlation between the first sorting result and the sampling proportion; and re-sampling training data for modeling according to the sampling proportions respectively corresponding to the multiple pre-set classifications (S105). The problem of a classification model being unfriendly to a small category can be solved, and the classification accuracy of a classification model, obtained through training by means of training data, for different applications can be improved, thereby improving user experience.
(FR)
L'invention concerne un procédé et un appareil de ré-échantillonnage de données d'apprentissage, un support de mémoire et un dispositif électronique. Le procédé consiste : à acquérir des premières données d'origine dans un premier intervalle de temps (S101) ; à calculer des premières proportions respectives de multiples classifications préétablies dans les premières données d'origine (S102) ; à trier les multiples classifications préétablies selon une relation de dimension des premières proportions et une règle préétablie, afin d'obtenir un premier résultat de tri (S103) ; à déterminer, en fonction du premier résultat de tri des classifications préétablies et d'une corrélation préétablie, une proportion d'échantillonnage correspondant à chaque classification préétablie (S104), la corrélation préétablie étant une corrélation entre le premier résultat de tri et la proportion d'échantillonnage ; à ré-échantillonner les données d'apprentissage pour effectuer une modélisation en fonction des proportions d'échantillonnage correspondant respectivement aux multiples classifications préétablies (S105). Le problème d'un modèle de classification hostile à une petite catégorie peut être résolu, et la précision de classification d'un modèle de classification, obtenu par apprentissage au moyen de données d'apprentissage, pour différentes applications, peut être améliorée, ce qui permet d'améliorer l'expérience utilisateur.
(ZH)
一种训练数据重采样方法、装置、存储介质及电子设备。该方法包括:获取第一时段内的第一原始数据(S101);计算第一原始数据中多个预设分类分别所占的第一比例(S102);根据第一比例的大小关系按照预设规则对多个预设分类进行排序,获得第一排序结果(S103);根据各预设分类的第一排序结果和预设对应关系,确定各预设分类对应的采样比例(S104),所述预设对应关系为所述第一排序结果与所述采样比例之间的对应关系;根据多个预设分类分别对应的采样比例对用于建模的训练数据进行重采样(S105)。可以解决分类模型对小类别不友好的问题,提高通过该训练数据训练得到的分类模型针对不同应用的分类准确性,从而提高用户体验。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international