(EN) A method and a system for screening corpus data in the vertical field. Said method comprises: performing word segmentation on corpus data to be screened, and converting words of said corpus data into word vectors (101); fusing the word vectors of all the words of said corpus data, and taking a fusion result as a semantic vector of said corpus data (102); and calculating the similarity between the semantic vector of said corpus data and a semantic vector pre-acquired from sample corpus data in the vertical field, and if the similarity is greater than a preset threshold, determining that the corpus data to be screened is corpus data in the vertical field (103). According to the method, corpus data to be screened of a document level, a sentence level and a paragraph level can be screened; in addition, when sample corpus data in the vertical field is small, the precision of corpus data screening can still be ensured.
(FR) L'invention concerne un procédé et un système permettant de filtrer des données de corpus dans un champ vertical. Ledit procédé consiste : à réaliser une segmentation de mots sur des données de corpus à filtrer et à convertir des mots desdites données de corpus en vecteurs de mots (101) ; à fusionner les vecteurs de mots de tous les mots desdites données de corpus et à prendre un résultat de fusion comme vecteur sémantique desdites données de corpus (102) ; et à calculer la similarité entre le vecteur sémantique desdites données de corpus et un vecteur sémantique préacquis à partir de données de corpus d'échantillon dans le champ vertical et, si la similarité est supérieure à un seuil prédéfini, à déterminer que les données de corpus à filtrer sont des données de corpus dans le champ vertical (103). Selon le procédé, des données de corpus à filtrer au niveau d'un document, au niveau d'une phrase et au niveau d'un paragraphe peuvent être filtrées ; de plus, lorsque des données de corpus d'échantillon dans le champ vertical sont petites, la précision du filtrage de données de corpus peut encore être assurée.
(ZH) 一种垂直领域语料数据筛选方法及系统,该方法包括:对待筛选语料数据进行分词,将所述待筛选语料数据的词转换为词向量(101);将所述待筛选语料数据的所有词的词向量进行融合,将融合结果作为所述待筛选语料数据的语义向量(102);计算所述待筛选语料数据的语义向量和垂直领域的样本语料数据预先获取的语义向量之间的相似度,若所述相似度大于预设阈值,则确定所述待筛选语料数据为所述垂直领域的语料数据(103)。上述方法一方面可以对文档级、句子级和段落级的待筛选语料数据进行筛选,另一方面,在垂直领域的样本语料数据较少时,依然能保证语料数据筛选的精度。