Processing

Please wait...

Settings

Settings

Goto Application

1. WO2019209569 - SPEAKER DIARIZATION USING AN END-TO-END MODEL

Publication Number WO/2019/209569
Publication Date 31.10.2019
International Application No. PCT/US2019/027519
International Filing Date 15.04.2019
IPC
G10L 17/04 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/18 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
CPC
G10L 15/26
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15Speech recognition
26Speech to text systems
G10L 17/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/18
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
G10L 2021/02165
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
21Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
02Speech enhancement, e.g. noise reduction or echo cancellation
0208Noise filtering
0216characterised by the method used for estimating noise
02161Number of inputs available containing the signal or the noise to be suppressed
02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Applicants
  • GOOGLE LLC [US]/[US]
Inventors
  • WANG, Quan
  • SHETH, Yash
  • MORENO, Ignacio Lopez
  • WAN, Li
Agents
  • HIGDON, Scott
  • SALAZAR, John
  • SHUMAKER, Brantley
  • PURCELL, John
Priority Data
62/661,49823.04.2018US
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) SPEAKER DIARIZATION USING AN END-TO-END MODEL
(FR) SEGMENTATION ET REGROUPEMENT DE LOCUTEUR AU MOYEN D’UN MODÈLE DE BOUT EN BOUT
Abstract
(EN) Techniques are described for training and/or utilizing an end-to-end speaker diarization model. In various implementations, the model is a recurrent neural network (RNN) model, such as an RNN model that includes at least one memory layer, such as a long short-term memory (LSTM) layer. Audio features of audio data can be applied as input to an end-to-end speaker diarization model trained according to implementations disclosed herein, and the model utilized to process the audio features to generate, as direct output over the model, speaker diarization results. Further, the end-to-end speaker diarization model can be a sequence-to-sequence model, where the sequence can have variable length. Accordingly, the model can be utilized to generate speaker diarization results for any of various length audio segments.
(FR) La présente invention concerne des techniques d’apprentissage et/ou d’utilisation d’un modèle de segmentation et regroupement de locuteur. Dans différents modes de réalisation, le modèle est un modèle de réseau de neurones récurrents (RNR), tel qu’un modèle RNR qui comprend au moins une couche de mémoire, telle qu’une couche de mémoire à court et long terme (LSTM). Des caractéristiques audio de données audio peuvent être appliquées en tant qu’entrée d’un modèle de segmentation et regroupement de locuteur de bout en bout entraîné selon des modes de réalisation de la présente invention, et le modèle utilisé pour traiter les caractéristiques audio pour générer, en tant que sortie directe sur le modèle, des résultats de segmentation et regroupement de locuteur. En outre, le modèle de segmentation et regroupement de locuteur de bout en bout peut être un modèle de séquence à séquence, la séquence pouvant avoir une longueur variable. En conséquence, le modèle peut être utilisé pour générer des résultats de segmentation et regroupement de locuteur pour l’un quelconque de segments audio de différentes longueurs.
Latest bibliographic data on file with the International Bureau