(EN) Disclosed are a method and an apparatus for generating a speech video. The disclosed speech video generating apparatus according to an embodiment corresponds to a speech video generating apparatus having at least one processor and a memory for storing at least one program executed by the at least one processor, and comprises: a first machine learning model which receives an input of a speech video of a person, extracts a video feature therefrom, and reconstructs the speech video from the extracted video feature; and a second machine learning model which receives an input of a speech audio signal of a person and predicts a video feature therefrom.
(FR) Sont divulgués un procédé et un appareil pour générer une vidéo de parole. L'appareil de génération de vidéo de parole divulgué selon un mode de réalisation correspond à un appareil de génération de vidéo de parole ayant au moins un processeur et une mémoire pour stocker au moins un programme exécuté par le ou les processeurs et comprend : un premier modèle d'apprentissage automatique qui reçoit une entrée d'une vidéo de parole d'une personne, extrait une caractéristique vidéo de celle-ci et reconstruit la vidéo de parole à partir de la caractéristique vidéo extraite; et un second modèle d'apprentissage automatique qui reçoit une entrée d'un signal audio de parole d'une personne et prédit une caractéristique vidéo à partir de celui-ci.
(KO) 발화 영상 생성 방법 및 장치가 개시된다. 개시되는 일 실시예에 따른 발화 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 발화 영상 생성 장치로서, 인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 제1 머신 러닝 모델 및 인물의 발화 오디오 신호를 입력으로 하여 영상 특징을 예측하도록 하는 제2 머신 러닝 모델을 포함한다.