Processing

Please wait...

Settings

Settings

Goto Application

1. JP2021524063 - ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成

Office
Japan
Application Number 2020564447
Application Date 17.05.2019
Publication Number 2021524063
Publication Date 09.09.2021
Publication Kind A
IPC
G10L 13/10
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
10Prosody rules derived from text; Stress or intonation
CPC
G10L 13/033
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
02Methods for producing synthetic speech; Speech synthesisers
033Voice editing, e.g. manipulating the voice of the synthesiser
G10L 13/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
02Methods for producing synthetic speech; Speech synthesisers
04Details of speech synthesis systems, e.g. synthesiser structure or memory management
G10L 25/30
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
27characterised by the analysis technique
30using neural networks
G06N 3/08
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G10L 25/18
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
03characterised by the type of extracted parameters
18the extracted parameters being spectral information of each sub-band
G10L 17/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
Applicants グーグル エルエルシー
Inventors ジア、イー
チェン、ジフェン
ウー、ヨンフイ
シェン、ジョナサン
パン、ルオミン
ワイス、ロン ジェイ.
モレノ、イグナシオ ロペス
レン、フェイ
チャン、ユー
ワン、クアン
グエン、パトリック アン フー
Agents 本田 淳
Priority Data 62/672,835 17.05.2018 US
Title
(JA) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
Abstract
(JA)

音声合成のための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置。方法、システム、および装置は、ターゲット話者の音声のオーディオ表現を取得することと、音声がターゲット話者の声で合成される入力テキストを取得することと、話者を互いに区別するようにトレーニングされた話者エンコーダエンジンにオーディオ表現を提供することによって話者ベクトルを生成することと、入力テキストと話者ベクトルとを、オーディオ表現を生成するために参照話者の声を使用してトレーニングされたスペクトログラム生成エンジンに提供することによって、ターゲット話者の声で話される入力テキストのオーディオ表現を生成することと、出力用にターゲット話者の声で話された入力テキストのオーディオ表現を提供することと、のアクションを含み得る。