WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2017067206) TRAINING METHOD FOR MULTIPLE PERSONALIZED ACOUSTIC MODELS, AND VOICE SYNTHESIS METHOD AND DEVICE
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2017/067206 International Application No.: PCT/CN2016/087321
Publication Date: 27.04.2017 International Filing Date: 27.06.2016
IPC:
G10L 13/02 (2013.01) ,G10L 15/02 (2006.01) ,G10L 15/183 (2013.01)
Applicants: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) CO., LTD.[CN/CN]; 3/F Baidu Campus, No. 10, Shangdi 10th Street, Haidian District Beijing 100085, CN
Inventors: LI, Xiulin; CN
Agent: TSINGYIHUA INTELLECTUAL PROPERTY LLC; Room 301, Trade Building Zhaolanyuan, Tsinghua University Qinghuayuan, Haidian District Beijing 100084, CN
Priority Data:
201510684475.120.10.2015CN
Title (EN) TRAINING METHOD FOR MULTIPLE PERSONALIZED ACOUSTIC MODELS, AND VOICE SYNTHESIS METHOD AND DEVICE
(FR) PROCÉDÉ D'APPRENTISSAGE DE PLUSIEURS MODÈLES ACOUSTIQUES PERSONNALISÉS, ET PROCÉDÉ ET DISPOSITIF DE SYNTHÈSE DE LA PAROLE
(ZH) 个性化多声学模型的训练方法、语音合成方法及装置
Abstract: front page image
(EN) A training method for multiple personalized acoustic models, and a voice synthesis method and device, for voice synthesis. The method comprises: training a reference acoustic model, based on first acoustic feature data of training voice data and first text annotation data corresponding to the training voice data (S11); acquiring voice data of a target user (S12); training a first target user acoustic model according to the reference acoustic model and the voice data (S13); generating second acoustic feature data of the first text annotation data, according to the first target user acoustic model and the first text annotation data (S14); and training a second target user acoustic model, based on the first text annotation data and the second acoustic feature data (S15). According to the model training method, in the process of training a target user acoustic model, requirements on the scale of voice data of the target user are lowered, and a plurality of personalized acoustic models including the voice features of the target user can be trained by using a small amount of user voice data.
(FR) L'invention concerne un procédé d'apprentissage de plusieurs modèles acoustiques personnalisés ainsi qu'un procédé et un dispositif de synthèse de la parole, qui sont destinés à la synthèse de la parole. Le procédé comprend : l'apprentissage d'un modèle acoustique de référence, sur la base de premières données de caractéristiques acoustiques de données vocales d'apprentissage et de premières données d'annotation de texte correspondant aux données vocales d'apprentissage (S11) ; l'acquisition de données vocales d'un utilisateur cible (S12) ; l'apprentissage d'un premier modèle acoustique d'utilisateur cible selon le modèle acoustique de référence et les données vocales (S13) ; la génération de secondes données de caractéristiques acoustiques des premières données d'annotation de texte, en fonction du premier modèle acoustique d'utilisateur cible et des premières données d'annotation de texte (S14) ; et l'apprentissage d'un second modèle acoustique d'utilisateur cible, sur la base des premières données d'annotation de texte et des secondes données de caractéristiques acoustiques (S15). Selon ce procédé d'apprentissage de modèle, au cours du processus d'apprentissage d'un modèle acoustique d'utilisateur cible, les exigences relatives à l'ampleur des données vocales de l'utilisateur cible sont moindres, et une pluralité de modèles acoustiques personnalisés incluant les caractéristiques vocales de l'utilisateur cible peuvent faire l'objet d'un apprentissage à l'aide d'une petite quantité de données vocales d'utilisateur.
(ZH) 一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置,其中,该方法包括:基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据,训练基准声学模型(S11);获取目标用户的语音数据(S12);根据基准声学模型和语音数据,训练第一目标用户声学模型(S13);根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据(S14);以及基于第一文本标注数据和第二声学特征数据,训练第二目标用户声学模型(S15)。该模型训练方法,在训练目标用户声学模型过程中,降低了对目标用户的语音数据的规模的要求,利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)