Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020071213 - ACOUSTIC MODEL LEARNING DEVICE, VOICE SYNTHESIS DEVICE, AND PROGRAM

Publication Number WO/2020/071213
Publication Date 09.04.2020
International Application No. PCT/JP2019/037620
International Filing Date 25.09.2019
IPC
G10L 13/06 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
06Elementary speech units used in speech synthesisers; Concatenation rules
G10L 13/08 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
CPC
G10L 13/06
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
06Elementary speech units used in speech synthesisers; Concatenation rules
G10L 13/08
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Applicants
  • 日本電信電話株式会社 NIPPON TELEGRAPH AND TELEPHONE CORPORATION [JP]/[JP]
Inventors
  • 金川 裕紀 KANAGAWA Hiroki
  • 井島 勇祐 IJIMA Yusuke
Agents
  • 杉村 憲司 SUGIMURA Kenji
Priority Data
2018-19046205.10.2018JP
Publication Language Japanese (JA)
Filing Language Japanese (JA)
Designated States
Title
(EN) ACOUSTIC MODEL LEARNING DEVICE, VOICE SYNTHESIS DEVICE, AND PROGRAM
(FR) DISPOSITIF D'APPRENTISSAGE DE MODÈLE ACOUSTIQUE, DISPOSITIF DE SYNTHÈSE VOCALE, ET PROGRAMME
(JA) 音響モデル学習装置、音声合成装置、及びプログラム
Abstract
(EN)
The present invention is an acoustic model learning device (10) for obtaining an acoustic model used for synthesizing an inflected voice signal, wherein the device comprises: a first learning unit (13) that uses a voice assessment model and a speaker assessment model to learn an acoustic model for estimating a plurality of synthesized acoustic feature quantities on the basis of a plurality of acoustic feature quantities of a plurality of speakers, a plurality of linguistic feature quantities corresponding to the plurality of acoustic feature quantities, and a plurality of speaker data; a second learning unit (15) that learns the voice assessment model for assessing whether a synthesized acoustic feature quantity is a prescribed acoustic feature quantity, on the basis of the plurality of acoustic feature quantities and the plurality of synthesized acoustic feature quantities; and a third learning unit (16) that learns the speaker assessment model for assessing whether the speaker of the synthesized acoustic feature quantity is a prescribed speaker, on the basis of the plurality of acoustic feature quantities and the plurality of synthesized acoustic feature quantities.
(FR)
La présente invention concerne un dispositif d'apprentissage de modèle acoustique (10) permettant d'obtenir un modèle acoustique utilisé pour synthétiser un signal vocal flexionnel, le dispositif comprenant : une première unité d'apprentissage (13) qui utilise un modèle d'évaluation vocale et un modèle d'évaluation de locuteur pour apprendre un modèle acoustique afin d'estimer une pluralité de quantités de caractéristiques acoustiques synthétisées sur la base d'une pluralité de quantités de caractéristiques acoustiques d'une pluralité de locuteurs, d'une pluralité de quantités de caractéristiques linguistiques correspondant à la pluralité de quantités de caractéristiques acoustiques, et d'une pluralité de données de locuteur ; une deuxième unité d'apprentissage (15) qui apprend le modèle d'évaluation vocale pour évaluer si une quantité de caractéristiques acoustiques synthétisées est une quantité de caractéristiques acoustiques prescrites, sur la base de la pluralité de quantités de caractéristiques acoustiques et de la pluralité de quantités de caractéristiques acoustiques synthétisées ; et une troisième unité d'apprentissage (16) qui apprend le modèle d'évaluation de locuteur pour évaluer si le locuteur de la quantité de caractéristiques acoustiques synthétisées est un locuteur prescrit, sur la base de la pluralité de quantités de caractéristiques acoustiques et de la pluralité de quantités de caractéristiques acoustiques synthétisées.
(JA)
音響モデル学習装置(10)は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部(13)と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部(15)と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第3の学習部(16)と、を備える。
Also published as
Latest bibliographic data on file with the International Bureau