(EN) Disclosed in the present application are a video subtitle synthesis method, comprising: obtaining voice information in a video, and obtaining a voice to be recognized according to a feature of the voice information; inputting the voice to be recognized to a d-vector voiceprint recognition model to obtain a voiceprint identifier corresponding to the voice to be recognized, the voiceprint identifier comprising a d-vector feature; performing voice recognition on the voice to be recognized to obtain corresponding text information; and synthesizing the voiceprint identifier and the text information to generate subtitles of the voice to be recognized.
(FR) La présente invention concerne un procédé de synthèse de sous-titres vidéo, comprenant les étapes consistant à : obtenir des informations vocales dans une vidéo, et obtenir une voix à reconnaître en fonction d'une caractéristique des informations vocales ; entrer la voix à reconnaître dans un modèle de reconnaissance d'empreinte vocale de vecteur d pour obtenir un identifiant d'empreinte vocale correspondant à la voix à reconnaître, l'identifiant d'empreinte vocale comprenant une caractéristique de vecteur d ; mettre en oeuvre une reconnaissance vocale sur la voix à reconnaître pour obtenir des informations de texte correspondantes ; et synthétiser l'identifiant d'empreinte vocale et les informations de texte pour générer des sous-titres de la voix à reconnaître.
(ZH) 本申请公开了一种视频字幕合成方法,包括:获取视频当中的语音信息,根据语音信息的特征得到待识别语音,将待识别语音输入至d-vector声纹识别模型,以得到待识别语音所对应的声纹标识,声纹标识包含d-vector特征,对待识别语音进行语音识别以得到对应的文本信息,将声纹标识和文本信息进行合成,以生成待识别语音的字幕。