Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020133039 - ENTITY IDENTIFICATION METHOD AND APPARATUS IN DIALOGUE CORPUS, AND COMPUTER DEVICE

Publication Number WO/2020/133039
Publication Date 02.07.2020
International Application No. PCT/CN2018/124239
International Filing Date 27.12.2018
IPC
G06F 17/27 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
20Handling natural language data
27Automatic analysis, e.g. parsing, orthograph correction
CPC
G06F 40/284
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
284Lexical analysis, e.g. tokenisation or collocates
G06F 40/295
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
20Natural language analysis
279Recognition of textual entities
289Phrasal analysis, e.g. finite state techniques or chunking
295Named entity recognition
G06F 40/30
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
30Semantic analysis
Applicants
  • 深圳市优必选科技有限公司 UBTECH ROBOTICS CORP [CN]/[CN]
Inventors
  • 熊友军 XIONG, Youjun
  • 罗沛鹏 LUO, Peipeng
  • 廖洪涛 LIAO, Hongtao
Agents
  • 深圳中细软知识产权代理有限公司 SHENZHEN CIPRUN INTELLECTUAL PROPERTY AGENCY CO., LTD.
Priority Data
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) ENTITY IDENTIFICATION METHOD AND APPARATUS IN DIALOGUE CORPUS, AND COMPUTER DEVICE
(FR) PROCÉDÉ ET APPAREIL D'IDENTIFICATION D'ENTITÉ DANS UN CORPUS DE DIALOGUE, ET DISPOSITIF INFORMATIQUE
(ZH) 对话语料中实体的识别方法、装置和计算机设备
Abstract
(EN)
An entity identification method and apparatus in a dialogue corpus, and a computer device. The method comprises: obtaining corpus text of an entity to be identified (S102); performing word segmentation on the corpus text to obtain a word segmentation result, the word segmentation result comprising multiple words (S104); obtaining a word vector corresponding to each word in the word segmentation result, and combining the word vector corresponding to each word to obtain a text matrix corresponding to the corpus text (S106); and inputting the text matrix to an entity identification model, and obtaining the entity in the corpus text output by the entity identification model (S108). By using the mode above, the accuracy of entity identification is improved.
(FR)
L'invention concerne un procédé et un appareil d'identification d'entité dans un corpus de dialogue, et un dispositif informatique. Le procédé comprend les étapes consistant à : obtenir un texte de corpus d'une entité à identifier (S102) ; effectuer une segmentation de mots sur le texte de corpus pour obtenir un résultat de segmentation de mots, le résultat de segmentation de mots comprenant de multiples mots (S104) ; obtenir un vecteur de mot correspondant à chaque mot dans le résultat de segmentation de mots, et combiner le vecteur de mot correspondant à chaque mot pour obtenir une matrice de texte correspondant au texte de corpus (S106) ; et entrer la matrice de texte dans un modèle d'identification d'entité, et obtenir l'entité dans le texte de corpus délivré en sortie par le modèle d'identification d'entité (S108). En utilisant le mode ci-dessus, la précision de l'identification d'entité est améliorée.
(ZH)
一种对话语料中实体的识别方法、装置和计算机设备,包括:获取待识别实体的语料文本(S102);将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字(S104);获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵(S106);将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体(S108)。通过上述方式,能够提高实体识别的准确率。
Latest bibliographic data on file with the International Bureau