Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018066436) LEARNING DEVICE FOR ACOUSTIC MODEL AND COMPUTER PROGRAM FOR SAME
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/066436 International Application No.: PCT/JP2017/035018
Publication Date: 12.04.2018 International Filing Date: 27.09.2017
IPC:
G10L 15/06 (2013.01) ,G10L 15/16 (2006.01)
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15
Speech recognition
06
Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15
Speech recognition
08
Speech classification or search
16
using artificial neural networks
Applicants:
国立研究開発法人情報通信研究機構 NATIONAL INSTITUTE OF INFORMATION AND COMMUNICATIONS TECHNOLOGY [JP/JP]; 東京都小金井市貫井北町4-2-1 4-2-1, Nukui-Kitamachi, Koganei-shi, Tokyo 1848795, JP
Inventors:
神田 直之 KANDA, Naoyuki; JP
Agent:
清水 敏 SHIMIZU, Satoshi; JP
Priority Data:
2016-19710705.10.2016JP
Title (EN) LEARNING DEVICE FOR ACOUSTIC MODEL AND COMPUTER PROGRAM FOR SAME
(FR) DISPOSITIF D’APPRENTISSAGE POUR MODÈLE ACOUSTIQUE ET PROGRAMME INFORMATIQUE ASSOCIÉ
(JA) 音響モデルの学習装置及びそのためのコンピュータプログラム
Abstract:
(EN) [Problem] To provide a learning device for an acoustic model wherein speech recognition accuracy can be increased in an acoustic model making use of the characteristics of a neural network (NN). [Solution] A learning device 350 includes: a learning processing unit 362 for optimizing a connectionist temporal classification acoustic model (CTC-AM) 364 such that the sum across all learning data for posterior probability of correct subword sequences for learning data is maximized when an observation sequence in learning data stored in a learning data storage unit 360 is presented; and an MBR learning processing unit 366, an accuracy evaluation unit 374 and a learning/evaluation control unit 378 for further optimizing the CTC-AM 364 such that expected values for evaluation values representing the accuracy of word sequence hypotheses estimated using the CTC-AM 364 and language models 368, 370 is maximized when an observation sequence of data for evaluation that is stored in an evaluation data storage unit 376 is presented.
(FR) [Problème] Fournir un dispositif d’apprentissage pour un modèle acoustique dans lequel la précision de reconnaissance de la parole peut être augmentée dans un modèle acoustique utilisant les caractéristiques d’un réseau neuronal (NN). [Solution] La présente invention concerne un dispositif d’apprentissage 350 qui comprend : une unité de traitement d’apprentissage 362 pour optimiser un modèle acoustique de classification temporelle connexionniste (CTC-AM) 364 de sorte que la somme sur toutes les données d’apprentissage pour la probabilité a posteriori de séquences de sous-mots correctes pour les données d’apprentissage soit maximisée lorsqu’une séquence d’observation dans des données d’apprentissage stockées dans une unité de stockage de données d’apprentissage 360 est présentée ; et une unité de traitement d’apprentissage MBR 366, une unité d’évaluation d’exactitude 374 et une unité de commande d’apprentissage/évaluation 378 pour optimiser plus avant le CTC-AM 364 de sorte que les valeurs attendues pour les valeurs d’évaluation représentant l’exactitude d’hypothèses de séquence de mots estimées au moyen de la CTC-AM 364 et des modèles de langage 368, 370 soient maximisées lorsqu’une séquence d’observation de données pour évaluation qui est stockée dans une unité de stockage de données d’évaluation 376 est présentée.
(JA) 【課題】ニューラルネットワーク(NN)の特性を活かした音響モデルにおいて、音声認識精度を高めることができる音響モデルの学習装置を提供する。 【解決手段】学習装置350は、学習データ記憶部360に記憶された学習データ内の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の、学習データ全体に亘る和が最大となるように、NNによるConnectionist Temporal Classification音響モデル(CTC-AM)364を最適化する学習処理部362と、評価データ記憶部376に記憶された評価用データの観測系列が与えられたときに、CTC-AM364と言語モデル368、370とを用いて推定した単語列の仮説の精度を表す評価値の期待値が最大となるように、CTC-AM364をさらに最適化するMBR学習処理部366、精度評価部374及び学習・評価制御部378を含む。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Japanese (JA)
Filing Language: Japanese (JA)