(EN) Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for speech synthesis. The methods, systems, and apparatus include actions of obtaining an audio representation of speech of a target speaker, obtaining input text for which speech is to be synthesized in a voice of the target speaker, generating a speaker vector by providing the audio representation to a speaker encoder engine that is trained to distinguish speakers from one another, generating an audio representation of the input text spoken in the voice of the target speaker by providing the input text and the speaker vector to a spectrogram generation engine that is trained using voices of reference speakers to generate audio representations, and providing the audio representation of the input text spoken in the voice of the target speaker for output.
(FR) La présente invention concerne des procédés, des systèmes et un appareil, incluant des programmes d'ordinateur codés sur un support d'enregistrement informatique, pour une synthèse de la parole. Les procédés, les systèmes et l'appareil comprennent des actions consistant à obtenir une représentation audio de paroles d'un locuteur cible, obtenir un texte d'entrée pour lequel des paroles doivent être synthétisées en une voix du locuteur cible, générer un vecteur de locuteur en fournissant la représentation audio à un moteur de codage de locuteur qui est entraîné pour distinguer des locuteurs les uns des autres, générer une représentation audio du texte d'entrée parlé dans la voix du locuteur cible par la fourniture du texte d'entrée et du vecteur de locuteur à un moteur de génération de spectrogrammes qui est entraîné à utiliser des voix de locuteurs de référence pour générer des représentations audio, et fournir la représentation audio du texte d'entrée parlé dans la voix du locuteur cible aux fins de sortie.