(EN) Disclosed are a data increment method, device, a computer device, and a storage medium. The method comprises: obtaining a scene classification sample corresponding to a specific scene, and a specified sample ratio (S10), using a regular expression to perform text preprocessing on the scene classification sample to obtain a text to be trained (S20); using an original word vector model to perform incremental training on the text to be trained to obtain a target word vector model (S30); determining the actual sample ratio corresponding to a classification label based on the actual number of samples corresponding to each classification label and the total number of samples corresponding to the scene classification samples (S40); if the actual sample ratio is less than the specified sample ratio, using the scene classification sample corresponding to the classification label as a sample to be incremented (S50); inputting the sample to be incremented into the target word vector model for processing to obtain a candidate phrase corresponding to the sample to be incremented (S60); and randomly selecting a target synonym from each candidate phrase for replacing the sample to be incremented to obtain a first newly-increased sample (S70). The method can effectively guarantee data balance.
(FR) La présente invention concerne un procédé et un dispositif d'incrémentation de données, un dispositif informatique et un support de stockage. Le procédé comprend les étapes consistant à : obtenir un échantillon de classification de lieu correspondant à un lieu spécifique et un rapport d'échantillon spécifié (S10), utiliser une expression régulière pour effectuer un prétraitement de texte sur l'échantillon de classification de lieu pour obtenir un texte à entraîner (S20) ; utiliser un modèle de vecteur de mot d'origine pour effectuer un apprentissage incrémentiel sur le texte à apprendre afin d'obtenir un modèle de vecteur de mot cible (S30) ; déterminer le rapport d'échantillon réel correspondant à une étiquette de classification sur la base du nombre réel d'échantillons correspondant à chaque étiquette de classification et du nombre total d'échantillons correspondant aux échantillons de classification de lieu (S40) ; si le rapport d'échantillon réel est inférieur au rapport d'échantillon spécifié, utiliser l'échantillon de classification de lieu correspondant à l'étiquette de classification comme échantillon à incrémenter (S50) ; entrer l'échantillon à incrémenter dans le modèle de vecteur de mot cible à traiter afin d'obtenir une phrase candidate correspondant à l'échantillon à incrémenter (S60) ; et sélectionner de façon aléatoire un synonyme cible à partir de chaque phrase candidate pour remplacer l'échantillon à incrémenter afin d'obtenir un premier échantillon récemment augmenté (S70). Le procédé permet de garantir efficacement l'équilibre des données.
(ZH) 一种数据增量方法、装置、计算机设备及存储介质,该方法包括:获取特定场景对应的场景分类样本和指定样本比例(S10),采用正则表达式对场景分类样本进行文本预处理,获取待训练文本(S20);采用原始词向量模型对待训练文本进行增量训练,获取目标词向量模型(S30);基于每一分类标签对应的实际样本数量和场景分类样本对应的总样本数量,确定分类标签对应的实际样本比例(S40);若实际样本比例小于指定样本比例,则将分类标签对应的场景分类样本作为待增量样本(S50);将待增量样本输入至目标词向量模型中进行处理,获取与待增量样本对应的候选词组(S60),从每一候选词组中随机选取一个目标同义词对待增量样本进行替换处理,获取第一新增样本(S70),该方法可有效保证数据平衡。