Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2019044401) COMPUTER SYSTEM CREATING SPEAKER ADAPTATION WITHOUT TEACHER IN DNN-BASED SPEECH SYNTHESIS, AND METHOD AND PROGRAM EXECUTED IN COMPUTER SYSTEM
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2019/044401 International Application No.: PCT/JP2018/029438
Publication Date: 07.03.2019 International Filing Date: 06.08.2018
IPC:
G10L 13/10 (2013.01)
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13
Speech synthesis; Text to speech systems
08
Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
10
Prosody rules derived from text; Stress or intonation
Applicants:
大学共同利用機関法人情報・システム研究機構 INTER-UNIVERSITY RESEACH INSTITUTE CORPORATION RESEARCH ORGANIZATION OF INFORMATION AND SYSTEMS [JP/JP]; 東京都立川市緑町10番3号 10-3, Midori-cho, Tachikawa-shi, Tokyo 1900014, JP
Inventors:
山岸 順一 YAMAGISHI Junichi; JP
高木 信二 TAKAKI Shinji; JP
Agent:
山本 秀策 YAMAMOTO Shusaku; JP
大塩 竹志 OSHIO Takeshi; JP
森下 夏樹 MORISHITA Natsuki; JP
飯田 貴敏 IIDA Takatoshi; JP
石川 大輔 ISHIKAWA Daisuke; JP
山本 健策 YAMAMOTO Kensaku; JP
Priority Data:
2017-16426729.08.2017JP
Title (EN) COMPUTER SYSTEM CREATING SPEAKER ADAPTATION WITHOUT TEACHER IN DNN-BASED SPEECH SYNTHESIS, AND METHOD AND PROGRAM EXECUTED IN COMPUTER SYSTEM
(FR) SYSTÈME INFORMATIQUE CRÉANT UNE ADAPTATION DE LOCUTEUR SANS ENSEIGNANT DANS UNE SYNTHÈSE DE LA PAROLE BASÉE SUR DNN, ET PROCÉDÉ ET PROGRAMME EXÉCUTÉS DANS LE SYSTÈME INFORMATIQUE
(JA) DNN音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
Abstract:
(EN) A computer system 1 includes a speaker information estimation unit 130 that estimates the speaker information of an unknown speaker on the basis of the acoustic feature amount for the unknown speaker without the need to enter text as teacher data. The speaker information of unknown speaker includes a speaker code that represents similarity by probability between a distribution of the acoustic feature amount for the unknown speaker and a distribution for each of the acoustic feature amounts for a plurality of known speakers. The computer system 1 further comprises: a synthesized acoustic feature amount generation unit 220 for generating a synthesized acoustic feature amount for the unknown speaker on the basis of a language feature amount for an input text and the speaker information of the unknown speaker, using acoustic models (DNN) 230 of multiple speakers; and a synthesized speech generation unit 240 for generating a synthesized speech of the unknown speaker on the basis of the synthesized acoustic feature amount of the unknown speaker.
(FR) L'invention concerne un système informatique 1 qui comprend une unité d'estimation d'informations de locuteur 130 qui estime les informations de locuteur d'un locuteur inconnu sur la base de la quantité de caractéristiques acoustiques pour le locuteur inconnu sans qu'il soit nécessaire d'entrer du texte en tant que données d'enseignant. Les informations de locuteur du locuteur inconnu comprennent un code de locuteur qui représente une similarité par probabilité entre une distribution de la quantité de caractéristiques acoustiques pour le locuteur inconnu et une distribution pour chacune des quantités de caractéristiques acoustiques pour une pluralité de locuteurs connus. Le système informatique 1 comprend en outre : une unité de génération de quantité de caractéristiques acoustiques synthétisées 220 pour générer une quantité de caractéristiques acoustiques synthétisées pour le locuteur inconnu sur la base d'une quantité de caractéristiques de langue pour un texte d'entrée et des informations de locuteur du locuteur inconnu, à l'aide de modèles acoustiques (DNN) 230 de multiples locuteurs ; et une unité de génération de parole synthétisée 240 pour générer une parole synthétisée du locuteur inconnu sur la base de la quantité de caractéristiques acoustiques synthétisées du locuteur inconnu.
(JA) コンピュータシステム1は、教師データとしてのテキストの入力を必要とすることなく、未知話者の音響特徴量に基づいて、未知話者の話者情報を推定する話者情報推定部130を含む。未知話者の話者情報は、未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。コンピュータシステム1は、複数話者の音響モデル(DNN)230を利用して、入力されたテキストの言語特徴量と未知話者の話者情報とに基づいて、未知話者の合成された音響特徴量を生成する合成音響特徴量生成部220と、未知話者の合成された音響特徴量に基づいて、未知話者の合成された音声を生成する合成音声生成部240とをさらに含む。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Japanese (JA)
Filing Language: Japanese (JA)