(EN) The present invention provides a high-accuracy error correction technology of a speech recognition result. This error correction device comprises: a first distributed representation sequence generation unit that generates, from a first token sequence representing a speech recognition result, a first distributed representation sequence being a sequence of distributed representations of tokens being elements of the first token sequence; a second distributed representation sequence generation unit that generates, from an input speech-related data sequence being a sequence of acoustic feature amounts of speech or vectors generated from the speech, a second distributed representation sequence being a sequence of distributed representations of input speech-related data being elements of the input speech-related data sequence; a distributed representation sequence integration unit that generates an integrated distributed representation sequence being a sequence of distributed representations including distributed representations being elements of the first distributed representation sequence and the second distributed representation sequence; an encoding unit that generates, from the integrated distributed representation sequence, an encoded integrated distributed representation sequence being a sequence of distributed representations corresponding to the input speech-related data and the feature of the speech recognition result; and a decoding unit that generates, from the encoded integrated distributed representation sequence, a second token sequence representing an error correction result of the speech recognition result.
(FR) La présente invention concerne une technologie de correction d’erreur de haute précision d’un résultat de reconnaissance de parole. Ce dispositif de correction d’erreur comprend : une première unité de génération de séquence de représentations distribuées qui génère, à partir d’une première séquence de jetons représentant un résultat de reconnaissance de la parole, une première séquence de représentations distribuées étant une séquence de représentations distribuées de jetons étant des éléments de la première séquence de jetons ; une deuxième unité de génération de séquence de représentations distribuées qui génère, à partir d’une séquence de données liée à la parole d’entrée étant une séquence de quantités de caractéristiques acoustiques de la parole ou des vecteurs générés à partir de la parole, une deuxième séquence de représentations distribuées étant une séquence de représentations distribuées de données liées à la parole d’entrée étant des éléments de la séquence de données liée à la parole d’entrée ; une unité d’intégration de séquence de représentations distribuées qui génère une séquence de représentations distribuées intégrée étant une séquence de représentations distribuées comprenant des représentations distribuées étant des éléments de la première séquence de représentations distribuées et de la deuxième séquence de représentations distribuées ; une unité de codage qui génère, à partir de la séquence de représentations distribuées intégrée, une séquence de représentations distribuées intégrée codée étant une séquence de représentations distribuées correspondant aux données liées à la parole d’entrée et à la caractéristique du résultat de reconnaissance de la parole ; et une unité de décodage qui génère, à partir de la séquence de représentations distribuées intégrée codée, une deuxième séquence de jetons représentant un résultat de correction d’erreur du résultat de reconnaissance de la parole.
(JA) 精度が高い音声認識結果の誤り訂正技術を提供する。音声認識結果を表す第1トークン系列から第1トークン系列の要素であるトークンの分散表現の系列である第1分散表現系列を生成する第1分散表現系列生成部と、音声の音響特徴量または音声から生成されるベクトルの系列である入力音声関連データ系列から入力音声関連データ系列の要素である入力音声関連データの分散表現の系列である第2分散表現系列を生成する第2分散表現系列生成部と、第1分散表現系列、第2分散表現系列の要素である分散表現を含む分散表現の系列である統合分散表現系列を生成する分散表現系列統合部と、統合分散表現系列から入力音声関連データと音声認識結果の特徴に対応する分散表現の系列であるエンコード済統合分散表現系列を生成するエンコード部と、エンコード済統合分散表現系列から音声認識結果の誤り訂正結果を表す第2トークン系列を生成するデコード部とを含む。