Recherche dans les collections de brevets nationales et internationales

1. (WO2015124006) PROCÉDÉ DE DÉTECTION ET DE CLASSIFICATION AUDIO DOTÉ D'UNE FONCTION PERSONNALISÉE

Pub. No.:    WO/2015/124006    International Application No.:    PCT/CN2014/091959
Publication Date: Fri Aug 28 01:59:59 CEST 2015 International Filing Date: Sun Nov 23 00:59:59 CET 2014
IPC: G10L 15/14
G10L 15/20
Applicants: TSINGHUA UNIVERSITY
清华大学
Inventors: YANG, Yi
杨毅
Title: PROCÉDÉ DE DÉTECTION ET DE CLASSIFICATION AUDIO DOTÉ D'UNE FONCTION PERSONNALISÉE
Abstract:
L'invention concerne un procédé de détection et de classification audio doté d'une fonction personnalisée, de façon à exécuter une détection d'activation audio sur des données audio. Le procédé comprend : premièrement, la classification d'une partie d'échantillons d'apprentissage originaux en une pluralité de types d'échantillons d'apprentissage (101, 102, 103) selon les types, l'extraction d'une caractéristique de chaque type d'échantillons d'apprentissage (101, 102, 103), et l'apprentissage d'un modèle hybride gaussien (105, 106, 107) correspondant à chaque type d'échantillons d'apprentissage ainsi qu'à un paramètre de ceux-ci, de façon à obtenir un modèle hybride gaussien global (202) ; en outre, l'utilisation d'autres échantillons d'apprentissage (201) en tant que nouveaux échantillons d'apprentissage, et la mise à jour du paramètre du modèle hybride gaussien global (202), de façon à obtenir un modèle local (204) ; et enfin, l'extraction d'une caractéristique (302) d'un échantillon de test (301), la saisie d'un classificateur de modèle local (303), et le lissage (304) et la sortie d'un résultat. Par l'apprentissage des modèles hybrides gaussiens global et local, les types et paramètres des modèles hybrides gaussiens peuvent être mis à jour en même temps que l'augmentation du nombre d'échantillons ; la performance d'un système est davantage améliorée en combinant un classificateur, et enfin, une détection et une classification audio sont mises en œuvre. Le procédé peut être utilisé dans une large mesure dans plusieurs domaines d'apprentissage de machine se rapportant à la détection et à la classification audio, tels que la reconnaissance de locuteur, la reconnaissance vocale et l'interaction humain-machine.