WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2018029071) SIGNATURE AUDIO PERMETTANT LA DÉTECTION DE COMMANDE VOCALE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication :    WO/2018/029071    N° de la demande internationale :    PCT/EP2017/069649
Date de publication : 15.02.2018 Date de dépôt international : 03.08.2017
CIB :
G10L 15/06 (2013.01), G10L 15/08 (2006.01), G10L 15/14 (2006.01), G10L 17/04 (2013.01), G10L 17/24 (2013.01), G10L 15/22 (2006.01)
Déposants : IMRA EUROPE S.A.S [FR/FR]; 220, rue Albert Caquot BP213 06904 SOPHIA ANTIPOLIS Cedex (FR)
Inventeurs : VRAZIC, Sacha; (FR)
Mandataire : TBK; Bavariaring 4 - 6 80336 Munich (DE)
Données relatives à la priorité :
10 2016 115 018.5 12.08.2016 DE
Titre (EN) AUDIO SIGNATURE FOR SPEECH COMMAND SPOTTING
(FR) SIGNATURE AUDIO PERMETTANT LA DÉTECTION DE COMMANDE VOCALE
Abrégé : front page image
(EN)From a speech signal uttered by a user, for each of a number of time frames T of the speech signal, N Higuchi fractal dimension (HFD) parameters are extracted as a feature vector, using multi-scale HFD, and a feature space is formed from the feature vector and the number of time frames T for each scale of the multi-scale HFD (30). Feature spaces formed for each of a plurality of speech signals are concatenated, a universal background model (UBM) is estimated from the concatenated feature spaces (40), and a user and command dependent Gaussian mixture model (GMM) is estimated for each of the plurality of speech signals using the estimated UBM, thereby estimating GMMs each corresponding to one of the plurality of speech signals (50).
(FR)À partir d'un signal vocal prononcé par un utilisateur, pour chacune des périodes de temps T du signal vocal, un nombre N de paramètres de la dimension fractale d'Higuchi (HFD) est extrait en tant que vecteur de caractéristiques à l'aide de la multi-échelle HFD et un espace de caractéristiques est formé à partir du vecteur de caractéristiques, ainsi qu'à partir du nombre de période de temps T pour chaque échelle de la multi-échelle HFD (30). Les espaces de caractéristiques formés pour chaque signal vocal d'une pluralité de signaux vocaux sont concaténés, un modèle universel (UBM) est estimé à partir des espaces de caractéristiques concaténés (40) et un modèle de mélange gaussien (GMM) dépendant d'un utilisateur et d'une commande est estimé pour chaque signal vocal d'une pluralité de signaux vocaux, à l'aide de l'UBM estimé, estimant donc les GMM correspondants chacun à un signal vocal d'une pluralité de signaux vocaux (50).
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)