Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022162767 - ERROR CORRECTION DEVICE, ERROR CORRECTION METHOD, AND PROGRAM

Publication Number WO/2022/162767
Publication Date 04.08.2022
International Application No. PCT/JP2021/002761
International Filing Date 27.01.2021
IPC
G10L 15/16 2006.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
G10L 15/22 2006.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialog
CPC
G10L 15/16
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
08Speech classification or search
16using artificial neural networks
G10L 15/22
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
22Procedures used during a speech recognition process, e.g. man-machine dialogue
Applicants
  • 日本電信電話株式会社 NIPPON TELEGRAPH AND TELEPHONE CORPORATION [JP]/[JP]
Inventors
  • 田中 智大 TANAKA, Tomohiro
  • 増村 亮 MASUMURA, Ryo
Agents
  • 中尾 直樹 NAKAO, Naoki
  • 中村 幸雄 NAKAMURA, Yukio
  • 義村 宗洋 YOSHIMURA, Takahiro
Priority Data
Publication Language Japanese (ja)
Filing Language Japanese (JA)
Designated States
Title
(EN) ERROR CORRECTION DEVICE, ERROR CORRECTION METHOD, AND PROGRAM
(FR) DISPOSITIF DE CORRECTION D’ERREUR, PROCÉDÉ DE CORRECTION D’ERREUR ET PROGRAMME
(JA) 誤り訂正装置、誤り訂正方法、プログラム
Abstract
(EN) The present invention provides a high-accuracy error correction technology of a speech recognition result. This error correction device comprises: a first distributed representation sequence generation unit that generates, from a first token sequence representing a speech recognition result, a first distributed representation sequence being a sequence of distributed representations of tokens being elements of the first token sequence; a second distributed representation sequence generation unit that generates, from an input speech-related data sequence being a sequence of acoustic feature amounts of speech or vectors generated from the speech, a second distributed representation sequence being a sequence of distributed representations of input speech-related data being elements of the input speech-related data sequence; a distributed representation sequence integration unit that generates an integrated distributed representation sequence being a sequence of distributed representations including distributed representations being elements of the first distributed representation sequence and the second distributed representation sequence; an encoding unit that generates, from the integrated distributed representation sequence, an encoded integrated distributed representation sequence being a sequence of distributed representations corresponding to the input speech-related data and the feature of the speech recognition result; and a decoding unit that generates, from the encoded integrated distributed representation sequence, a second token sequence representing an error correction result of the speech recognition result.
(FR) La présente invention concerne une technologie de correction d’erreur de haute précision d’un résultat de reconnaissance de parole. Ce dispositif de correction d’erreur comprend : une première unité de génération de séquence de représentations distribuées qui génère, à partir d’une première séquence de jetons représentant un résultat de reconnaissance de la parole, une première séquence de représentations distribuées étant une séquence de représentations distribuées de jetons étant des éléments de la première séquence de jetons ; une deuxième unité de génération de séquence de représentations distribuées qui génère, à partir d’une séquence de données liée à la parole d’entrée étant une séquence de quantités de caractéristiques acoustiques de la parole ou des vecteurs générés à partir de la parole, une deuxième séquence de représentations distribuées étant une séquence de représentations distribuées de données liées à la parole d’entrée étant des éléments de la séquence de données liée à la parole d’entrée ; une unité d’intégration de séquence de représentations distribuées qui génère une séquence de représentations distribuées intégrée étant une séquence de représentations distribuées comprenant des représentations distribuées étant des éléments de la première séquence de représentations distribuées et de la deuxième séquence de représentations distribuées ; une unité de codage qui génère, à partir de la séquence de représentations distribuées intégrée, une séquence de représentations distribuées intégrée codée étant une séquence de représentations distribuées correspondant aux données liées à la parole d’entrée et à la caractéristique du résultat de reconnaissance de la parole ; et une unité de décodage qui génère, à partir de la séquence de représentations distribuées intégrée codée, une deuxième séquence de jetons représentant un résultat de correction d’erreur du résultat de reconnaissance de la parole.
(JA) 精度が高い音声認識結果の誤り訂正技術を提供する。音声認識結果を表す第1トークン系列から第1トークン系列の要素であるトークンの分散表現の系列である第1分散表現系列を生成する第1分散表現系列生成部と、音声の音響特徴量または音声から生成されるベクトルの系列である入力音声関連データ系列から入力音声関連データ系列の要素である入力音声関連データの分散表現の系列である第2分散表現系列を生成する第2分散表現系列生成部と、第1分散表現系列、第2分散表現系列の要素である分散表現を含む分散表現の系列である統合分散表現系列を生成する分散表現系列統合部と、統合分散表現系列から入力音声関連データと音声認識結果の特徴に対応する分散表現の系列であるエンコード済統合分散表現系列を生成するエンコード部と、エンコード済統合分散表現系列から音声認識結果の誤り訂正結果を表す第2トークン系列を生成するデコード部とを含む。
Latest bibliographic data on file with the International Bureau