Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020062679 - END-TO-END SPEAKER DIARIZATION METHOD AND SYSTEM EMPLOYING DEEP LEARNING

Publication Number WO/2020/062679
Publication Date 02.04.2020
International Application No. PCT/CN2018/124431
International Filing Date 27.12.2018
IPC
G10L 17/04 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/06 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
06Decision making techniques; Pattern matching strategies
G10L 17/18 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
CPC
G10L 17/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/06
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
06Decision making techniques; Pattern matching strategies
G10L 17/18
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
Applicants
  • 厦门快商通信息技术有限公司 XIAMEN KUAISHANGTONG INFORMATION TECHNOLOGY CO., LTD. [CN]/[CN]
Inventors
  • 叶志坚 YE, Zhijian
  • 李稀敏 LI, Ximin
  • 肖龙源 XIAO, Longyuan
  • 蔡振华 CAI, Zhenhua
  • 刘晓葳 LIU, Xiaowei
  • 谭玉坤 TAN, Yukun
Agents
  • 厦门仕诚联合知识产权代理事务所(普通合伙) XIAMEN SHICHENG ASSOCIATES INTELLECTUAL PROPERTY AGENCY
Priority Data
201811158674.930.09.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) END-TO-END SPEAKER DIARIZATION METHOD AND SYSTEM EMPLOYING DEEP LEARNING
(FR) PROCÉDÉ ET SYSTÈME DE BOUT EN BOUT UTILISANT L'APPRENTISSAGE PROFOND POUR LA DIARISATION DE HAUT-PARLEURS
(ZH) 一种基于深度学习的端到端说话人分割方法及系统
Abstract
(EN)
Disclosed are an end-to-end speaker diarization method and system employing deep learning. The method comprises acquiring a first single-voice audio and a second single-voice audio and extracting a real STFT feature, performing voice mixing processing, extracting a mixed STFT feature, calculating a segmented STFT feature, comparing the real STFT feature and the segmented STFT feature, and optimizing a model, so as to perform training to acquire a required model. The method eliminates the following steps: segmenting mixed voice audio into multiple pieces of short voice audio, and performing, via a clustering algorithm, clustering processing on multiple pieces of short voice audio belonging to the same speaker, so as to acquire a long voice audio of the same speaker. Instead, mixed voice audio to be segmented is directly inputted to a trained model, so as to output segmented voice audio of each speaker. The end-to-end method avoids the accumulation of errors during an intermediate process, thereby improving segmentation precision.
(FR)
L'invention concerne un procédé et un système de bout en bout utilisant l'apprentissage profond pour la diarisation de haut-parleurs. Le procédé consiste à acquérir un premier audio mono-voix et un second audio mono-voix et à extraire une caractéristique STFT réelle, à effectuer un traitement de mélange vocal, à extraire une caractéristique STFT mélangée, à calculer une caractéristique STFT segmentée, à comparer la caractéristique STFT réelle à la caractéristique STFT segmentée, et à optimiser un modèle, de façon à effectuer un apprentissage pour acquérir un modèle requis. Le procédé élimine les étapes consistant à segmenter un audio vocal mélangé en de multiples éléments d'audio vocal court, et à effectuer via un algorithme de regroupement un traitement de regroupement sur de multiples éléments d'audio vocal court appartenant au même locuteur de façon à acquérir un audio vocal long du même locuteur. En lieu et place, un audio vocal mélangé devant être segmenté est directement entré dans un modèle formé, de manière à produire un audio vocal segmenté de chaque locuteur. Le procédé de bout en bout évite l'accumulation d'erreurs pendant un processus intermédiaire, ce qui permet d'améliorer la précision de la segmentation.
(ZH)
本发明公开了一种基于深度学习的端到端说话人分割方法及系统,其通过采集第一单人语音和第二单人语音进行真实STFT特征提取、语音混合处理、混合STFT特征的提取、分割STFT特征的计算、真实STFT特征与分割STFT特征的比较、模型的优化,从而训练得到所需的模型;使用时,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
Also published as
Latest bibliographic data on file with the International Bureau