WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2018049313) END-TO-END SPEAKER RECOGNITION USING DEEP NEURAL NETWORK
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.:    WO/2018/049313    International Application No.:    PCT/US2017/050927
Publication Date: 15.03.2018 International Filing Date: 11.09.2017
IPC:
G10L 17/04 (2013.01), G10L 17/18 (2013.01)
Applicants: PINDROP SECURITY, INC. [US/US]; 817 West Peachtree Street NW, Suite 770 Atlanta, Georgia 30308 (US)
Inventors: KHOURY, Elie; (US).
GARLAND, Matthew; (US)
Agent: SOPHIR, Eric L.; (US)
Priority Data:
15/262,748 12.09.2016 US
Title (EN) END-TO-END SPEAKER RECOGNITION USING DEEP NEURAL NETWORK
(FR) RECONNAISSANCE DE LOCUTEUR DE BOUT EN BOUT À L'AIDE D'UN RÉSEAU NEURONAL PROFOND
Abstract: front page image
(EN)The present invention is directed to a deep neural network (DNN) having a triplet network architecture, which is suitable to perform speaker recognition. In particular, the DNN includes three feed-forward neural networks, which are trained according to a batch process utilizing a cohort set of negative training samples. After each batch of training samples is processed, the DNN may be trained according to a loss function, e.g., utilizing a cosine measure of similarity between respective samples, along with positive and negative margins, to provide a robust representation of voiceprints.
(FR)La présente invention concerne un réseau neuronal profond (DNN pour Deep Neural Network) ayant une architecture de réseau triplet, qui est appropriée pour effectuer une reconnaissance de locuteur. En particulier, le réseau DNN comprend trois réseaux neuronaux à action directe, qui sont entraînés selon un procédé par lots utilisant un ensemble de cohorte d'échantillons d'apprentissage négatifs. Après que chaque lot d'échantillons d'apprentissage est traité, le réseau DNN peut être entraîné en fonction d'une fonction de perte, par exemple, en utilisant une mesure en cosinus de similarité entre des échantillons respectifs, conjointement avec des marges positives et négatives, pour fournir une représentation robuste d'empreintes vocales.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)