(EN) A voice conversion device 1 comprises an input unit 11 for inputting a designation of a conversion destination voice, an extraction unit 12 for analyzing a voice signal of a conversion origin voice and extracting time series data including a phoneme and a pitch, an adjustment unit 13 for matching the height of a pitch to the pitch of the designated conversion destination voice, and a generating unit 14 for generating a voice signal obtained by inputting the phoneme and the pitch in time series order to a deep learning model whereby voice data of a large number of people can be learned to synthesize the voice of a designated person, and synthesizing the designated conversion destination voice.
(FR) L'invention concerne un dispositif de conversion de voix (1) comprenant : une unité d'entrée (11) destinée à entrer une désignation de voix de destination de conversion; une unité d'extraction (12) destinée à analyser un signal vocal d'une voix d'origine de conversion et à extraire des données de séries temporelles contenant un phonème et une hauteur; une unité de réglage (13) destinée à adapter la hauteur à la hauteur de la voix de destination de conversion désignée; et une unité de génération (14) destinée à générer un signal vocal obtenu par entrée du phonème et de la hauteur dans l'ordre des séries temporelles dans un modèle d'apprentissage profond, des données vocales d'un grand nombre de personnes pouvant être apprises pour synthétiser la voix d'une personne désignée, et à synthétiser la voix de destination de conversion désignée.
(JA) 音声変換装置1は、変換先の声の指定を入力する入力部11と、変換元の声の音声信号を解析して音素と音高を含む時系列データを抽出する抽出部12と、音高の高さを指定された変換先の声の高さに合わせる調整部13と、多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに、音素と音高を時系列順に入力して指定された変換先の声を合成した音声信号を生成する生成部14を備える。