(KO) 스피치 합성을 위한, 컴퓨터 저장 매체 상에서 인코딩되는 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들. 방법들, 시스템들 및 장치들은, 대상 화자의 스피치의 오디오 표현을 획득하고, 대상 화자의 음성으로 스피치가 합성될 입력 텍스트를 획득하고, 화자들을 서로 구별하도록 훈련된 화자 인코더 엔진에 오디오 표현을 제공함으로써 화자 벡터를 생성하고, 오디오 표현들을 생성하기 위해 기준 화자들의 음성들을 사용하여 훈련된 스펙트로그램 생성 엔진에 입력 텍스트 및 화자 벡터를 제공함으로써 대상 화자의 음성으로 발성된 입력 텍스트의 오디오 표현을 생성하고, 그리고 출력을 위해 대상 화자의 음성으로 발성된 입력 텍스트의 오디오 표현을 제공하는 동작들을 포함한다.