Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020108063 - PROCÉDÉ, APPAREIL ET SERVEUR DE DÉTERMINATION DE MOTS CARACTÉRISTIQUES

Numéro de publication WO/2020/108063
Date de publication 04.06.2020
N° de la demande internationale PCT/CN2019/108024
Date du dépôt international 26.09.2019
CIB
G06F 17/27 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17Équipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
20Manipulation de données en langage naturel
27Analyse automatique, p.ex. analyse grammaticale, correction orthographique
G06F 16/23 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
20de données structurées, p.ex. de données relationnelles
23Mise à jour
CPC
G06F 16/23
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
23Updating
G06F 17/2765
Déposants
  • 阿里巴巴集团控股有限公司 ALIBABA GROUP HOLDING LIMITED
Inventeurs
  • 李怀松 LI, Huaisong
  • 潘健民 PAN, Jianmin
  • 周绪刚 ZHOU, Xugang
Mandataires
  • 北京博思佳知识产权代理有限公司 BEIJING BESTIPR INTELLECTUAL PROPERTY LAW CORPORATION
Données relatives à la priorité
201811416994.X26.11.2018CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) FEATURE WORD DETERMINING METHOD, APPARATUS, AND SERVER
(FR) PROCÉDÉ, APPAREIL ET SERVEUR DE DÉTERMINATION DE MOTS CARACTÉRISTIQUES
(ZH) 特征词的确定方法、装置和服务器
Abrégé
(EN)
A feature word determining method, apparatus, and server. The method comprises: acquiring text data (S51); extracting a first feature word from the text data (S53); on the basis of the first feature word, updating a word segment base to obtain an updated word segment base, the word segment base comprising a plurality of preset feature words used for representing preset attribute types (S55); and, on the basis of the updated word segment base and the preset feature words, extracting a second feature word from the text data (S57). The present method first performs new word extraction on the text data to obtain the first feature word, then uses the first feature word to update the word segment base, and can then use the updated word segment base and the preset feature words to extract a new feature word from the text data as a second feature word, and thereby avoids the inaccurate feature word extraction caused by incorrect word segmentation during the feature word extraction process, and achieves the technical effect of precisely mining new feature words conforming to requirements from text data.
(FR)
Procédé, appareil et serveur de détermination de mots caractéristiques. Le procédé comporte les étapes consistant à: acquérir des données de texte (S51); extraire un premier mot caractéristique des données de texte (S53); d'après le premier mot caractéristique, mettre à jour une base de segments de mots pour obtenir une base de segments de mots mise à jour, la base de segments de mots comportant une pluralité de mots caractéristiques prédéfinis utilisés pour représenter des types d'attributs prédéfinis (S55); et, d'après la base de segments de mots mise à jour et les mots caractéristiques prédéfinis, extraire un second mot caractéristique des données de texte (S57). Le présent procédé effectue d'abord une nouvelle extraction de mots sur les données de texte pour obtenir le premier mot caractéristique, puis utilise le premier mot caractéristique pour mettre à jour la base de segments de mots, et peut alors utiliser la base de segments de mots mise à jour et les mots caractéristiques prédéfinis pour extraire un nouveau mot caractéristique des données de texte en tant que second mot caractéristique, et évite ainsi l'extraction inexacte de mots caractéristiques causée par une segmentation incorrecte de mots pendant le processus d'extraction de mots caractéristiques, et réalise l'effet technique d'une exploration précise de nouveaux mots caractéristiques conformément à des exigences à partir de données de texte.
(ZH)
一种特征词的确定方法、装置和服务器。其中,该方法包括:获取文本数据(S51);从所述文本数据中提取出第一特征词(S53);根据所述第一特征词,更新分词库,得到更新后的分词库,其中,分词库包含多个用于表征预设属性类型的预设特征词(S55);根据更新后的分词库和预设特征词,从文本数据中提取第二特征词(S57)。该方法通过先对文本数据进行新词提取得到第一特征词;再利用第一特征词对分词库进行更新;进而可以利用更新后的分词库和预设特征词从文本数据提取出新的特征词作为第二特征词,从而避免了提取特征词的过程中,由于分词错误导致的特征词提取不准确,达到能精确地从文本数据中挖掘出符合要求的新的特征词的技术效果。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international