Processing

Please wait...

PATENTSCOPE will be unavailable a few hours for maintenance reason on Tuesday 25.01.2022 at 9:00 AM CET
Settings

Settings

Goto Application

1. WO2022005625 - SPEECH SYNTHESIS AND SPEECH RECOGNITION

Publication Number WO/2022/005625
Publication Date 06.01.2022
International Application No. PCT/US2021/032128
International Filing Date 13.05.2021
IPC
G10L 15/06 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
G10L 13/02 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
13Speech synthesis; Text to speech systems
02Methods for producing synthetic speech; Speech synthesisers
Applicants
  • MICROSOFT TECHNOLOGY LICENSING, LLC [US]/[US]
Inventors
  • TAN, Xu
  • QIN, Tao
  • GAN, Junwei
  • ZHAO, Sheng
  • LIU, Tieyan
Agents
  • SWAIN, Cassandra T.
  • BARKER, Doug
  • CHATTERJEE, Aaron C.
  • CHEN, Wei-Chen Nicholas
  • CHOI, Daniel
  • CHURNA, Timothy
  • DINH, Phong
  • EVANS, Patrick
  • GABRYJELSKI, Henry
  • GUPTA, Anand
  • HWANG, William C.
  • JARDINE, John S.
  • LEE, Sunah
  • LEMMON, Marcus
  • MARQUIS, Thomas
  • MEYERS, Jessica
  • ROPER, Brandon
  • SPELLMAN, Steven
  • SULLIVAN, Kevin
  • WALKER, Matt
  • WIGHT, Stephen A.
  • WISDOM, Gregg
  • WONG, Ellen
  • WONG, Thomas S.
  • ZHANG, Hannah
  • AKHTER, Julia
  • KADOURA, Judy M.
  • NIU, Bo
  • OLANIRAN, Qudus
  • BROWN, Renee
  • TRAN, Kimberly
Priority Data
202010620533.530.06.2020CN
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) SPEECH SYNTHESIS AND SPEECH RECOGNITION
(FR) SYNTHÈSE VOCALE ET RECONNAISSANCE VOCALE
Abstract
(EN) Implementations of the subject matter described herein provide a solution for speech synthesis and speech recognition. In this solution, a Text to Speech (TTS) model and an Automatic Speech Recognition (ASR) model supporting at least one language are obtained. The TTS model and the ASR model are adjusted, based on a first set of paired data in a target language, to support the target language. The TTS model is optimized based on the first set of paired data and a first set of synthesized paired data in the target language generated by the ASR model while the ASR model is optimized based on the first set of paired data and a second set of synthesized paired data in the target language generated by the TTS model. As such, the solution can provide TTS and ASR models with high accuracy for languages lacking training data by using less training data.
(FR) La présente invention porte, selon des mises en œuvre, sur une solution pour une synthèse vocale et une reconnaissance vocale. Dans cette solution, un modèle texte-parole (TTS) et un modèle de reconnaissance vocale automatique (ASR) prenant en charge au moins une langue sont obtenus. Le modèle TTS et le modèle ASR sont réglés, sur la base d'un premier ensemble de données appariées dans une langue cible, pour prendre en charge la langue cible. Le modèle TTS est optimisé sur la base du premier ensemble de données appariées et d'un premier ensemble de données appariées synthétisées dans la langue cible générée par le modèle ASR tandis que le modèle ASR est optimisé sur la base du premier ensemble de données appariées et d'un second ensemble de données appariées synthétisées dans la langue cible générée par le modèle TTS. Ainsi, la solution peut fournir des modèles TTS et ASR avec une grande précision pour des langues dépourvues de données d'apprentissage en utilisant moins de données d'apprentissage.
Latest bibliographic data on file with the International Bureau