Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Goto Application

1. WO2020089961 - DISPOSITIF ET PROGRAMME DE TRAITEMENT VOCAL

Numéro de publication WO/2020/089961
Date de publication 07.05.2020
N° de la demande internationale PCT/JP2018/040062
Date du dépôt international 29.10.2018
CIB
G10L 13/10 2013.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
13Synthèse de la parole; Systèmes de synthèse de la parole à partir de texte
08Analyse de texte ou génération de paramètres pour la synthèse de la parole à partir de texte, p.ex. conversion graphème-phonème, génération de prosodie ou détermination de l'intonation ou de l'accent tonique
10Règles de prosodie dérivées du texte; Intonation ou accent tonique
Déposants
  • 海沼 健一 KAINUMA Ken-ichi [JP]/[JP]
Inventeurs
  • 海沼 健一 KAINUMA Ken-ichi
Mandataires
  • 特許業務法人JAZY国際特許事務所 JAZY INTERNATIONAL PATENT FIRM
Données relatives à la priorité
Langue de publication japonais (JA)
Langue de dépôt japonais (JA)
États désignés
Titre
(EN) VOICE PROCESSING DEVICE AND PROGRAM
(FR) DISPOSITIF ET PROGRAMME DE TRAITEMENT VOCAL
(JA) 音声処理装置、およびプログラム
Abrégé
(EN)
The present invention enables voices including emotions to be synthesized in consideration of settings unique to respective speakers. Provided is a voice processing device. While extracting a face feature point for each frame from video data that is obtained by recording the face of a speaker, the voice processing device generates a first generating network for generating, on the basis of a voice feature data item extracted for each frame from a speech made by the speaker, the face feature point of the corresponding frame. The voice processing device assesses, with an identification network, whether or not the first generating network is appropriate. Then, the voice processing device generates a second generating network for generating the speech on the basis of: multiple types of unfixed settings including at least a text indicating the spoken words in the speech and information indicating an emotion included in the speech; multiple types of fixed settings specifying the voice type of the speaker; and the face feature point generated by the first generating network having assessed to be appropriate. The voice processing device assesses, with the identification network, whether or not the second generating network is appropriate.
(FR)
La présente invention permet de synthétiser des voix comprenant des émotions en tenant compte de réglages propres à des locuteurs respectifs. L'invention concerne un dispositif de traitement vocal. Tout en extrayant un point de caractéristique de visage pour chaque trame à partir de données vidéo qui sont obtenues par enregistrement du visage d'un locuteur, le dispositif de traitement vocal génère un premier réseau de génération servant à générer, sur la base d'un élément de données de caractéristique vocale extrait pour chaque trame à partir de paroles prononcées par le locuteur, le point de caractéristique de visage de la trame correspondante. Le dispositif de traitement vocal évalue, à l'aide d'un réseau d'identification, si le premier réseau de génération est approprié ou non. Ensuite, le dispositif de traitement vocal génère un second réseau de génération servant à générer les paroles sur la base : de multiples types de réglages non fixes comprenant au moins un texte indiquant les mots prononcés dans les paroles et des informations indiquant une émotion comprise dans les paroles ; de multiples types de réglages fixes spécifiant le type de voix du locuteur ; et le point de caractéristique de visage généré par le premier réseau de génération ayant été évalué comme étant approprié. Le dispositif de traitement vocal évalue, à l'aide du réseau d'identification, si le second réseau de génération est approprié ou non.
(JA)
発音者毎の固有の設定を加味しつつ感情のこもった音声を合成することを可能にする。 発話者の顔を撮像して得られる動画データからフレーム毎に顔特徴点を抽出する一方、当該発話者の発話音声からフレーム毎に抽出した音声特徴データに基づいて対応するフレームの顔特徴点を生成するための第1の生成ネットワークを生成し識別ネットワークにより適否を評価する。次いで、発話音声の発話内容を表すテキストと発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定、発話者の声質を規定する複数種の固定設定および適切と評価された第1の生成ネットワークにより生成され顔特徴点とから上記発話音声を生成するための第2の生成ネットワークを生成し上記識別ネットワークによりその適否を評価する音声処理装置を提供する。
Également publié en tant que
EP2018937532
Dernières données bibliographiques dont dispose le Bureau international