Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Goto Application

1. WO2020062679 - PROCÉDÉ ET SYSTÈME DE BOUT EN BOUT UTILISANT L'APPRENTISSAGE PROFOND POUR LA DIARISATION DE HAUT-PARLEURS

Numéro de publication WO/2020/062679
Date de publication 02.04.2020
N° de la demande internationale PCT/CN2018/124431
Date du dépôt international 27.12.2018
CIB
G10L 17/04 2013.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
17Identification ou vérification du locuteur
04Entraînement, enrôlement ou construction de modèle
G10L 17/06 2013.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
17Identification ou vérification du locuteur
06Techniques de prise de décision; Stratégies d’alignement de motifs
G10L 17/18 2013.01
GPHYSIQUE
10INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
LANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
17Identification ou vérification du locuteur
18Réseaux neuronaux artificiels; Approches connexionnistes
CPC
G10L 17/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/06
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
06Decision making techniques; Pattern matching strategies
G10L 17/18
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
Déposants
  • 厦门快商通信息技术有限公司 XIAMEN KUAISHANGTONG INFORMATION TECHNOLOGY CO., LTD. [CN]/[CN]
Inventeurs
  • 叶志坚 YE, Zhijian
  • 李稀敏 LI, Ximin
  • 肖龙源 XIAO, Longyuan
  • 蔡振华 CAI, Zhenhua
  • 刘晓葳 LIU, Xiaowei
  • 谭玉坤 TAN, Yukun
Mandataires
  • 厦门仕诚联合知识产权代理事务所(普通合伙) XIAMEN SHICHENG ASSOCIATES INTELLECTUAL PROPERTY AGENCY
Données relatives à la priorité
201811158674.930.09.2018CN
Langue de publication chinois (ZH)
Langue de dépôt chinois (ZH)
États désignés
Titre
(EN) END-TO-END SPEAKER DIARIZATION METHOD AND SYSTEM EMPLOYING DEEP LEARNING
(FR) PROCÉDÉ ET SYSTÈME DE BOUT EN BOUT UTILISANT L'APPRENTISSAGE PROFOND POUR LA DIARISATION DE HAUT-PARLEURS
(ZH) 一种基于深度学习的端到端说话人分割方法及系统
Abrégé
(EN)
Disclosed are an end-to-end speaker diarization method and system employing deep learning. The method comprises acquiring a first single-voice audio and a second single-voice audio and extracting a real STFT feature, performing voice mixing processing, extracting a mixed STFT feature, calculating a segmented STFT feature, comparing the real STFT feature and the segmented STFT feature, and optimizing a model, so as to perform training to acquire a required model. The method eliminates the following steps: segmenting mixed voice audio into multiple pieces of short voice audio, and performing, via a clustering algorithm, clustering processing on multiple pieces of short voice audio belonging to the same speaker, so as to acquire a long voice audio of the same speaker. Instead, mixed voice audio to be segmented is directly inputted to a trained model, so as to output segmented voice audio of each speaker. The end-to-end method avoids the accumulation of errors during an intermediate process, thereby improving segmentation precision.
(FR)
L'invention concerne un procédé et un système de bout en bout utilisant l'apprentissage profond pour la diarisation de haut-parleurs. Le procédé consiste à acquérir un premier audio mono-voix et un second audio mono-voix et à extraire une caractéristique STFT réelle, à effectuer un traitement de mélange vocal, à extraire une caractéristique STFT mélangée, à calculer une caractéristique STFT segmentée, à comparer la caractéristique STFT réelle à la caractéristique STFT segmentée, et à optimiser un modèle, de façon à effectuer un apprentissage pour acquérir un modèle requis. Le procédé élimine les étapes consistant à segmenter un audio vocal mélangé en de multiples éléments d'audio vocal court, et à effectuer via un algorithme de regroupement un traitement de regroupement sur de multiples éléments d'audio vocal court appartenant au même locuteur de façon à acquérir un audio vocal long du même locuteur. En lieu et place, un audio vocal mélangé devant être segmenté est directement entré dans un modèle formé, de manière à produire un audio vocal segmenté de chaque locuteur. Le procédé de bout en bout évite l'accumulation d'erreurs pendant un processus intermédiaire, ce qui permet d'améliorer la précision de la segmentation.
(ZH)
本发明公开了一种基于深度学习的端到端说话人分割方法及系统,其通过采集第一单人语音和第二单人语音进行真实STFT特征提取、语音混合处理、混合STFT特征的提取、分割STFT特征的计算、真实STFT特征与分割STFT特征的比较、模型的优化,从而训练得到所需的模型;使用时,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international