WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2016054304) NEURAL NETWORK-BASED SPEECH PROCESSING
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2016/054304    International Application No.:    PCT/US2015/053380
Publication Date: 07.04.2016 International Filing Date: 01.10.2015
Chapter 2 Demand Filed:    20.07.2016    
IPC:
G10L 15/02 (2006.01), G10L 17/18 (2013.01), G10L 17/02 (2013.01)
Applicants: MICROSOFT TECHNOLOGY LICENSING, LLC [US/US]; Attn: Patent Group Docketing (Bldg. 8/1000) One Microsoft Way Redmond, Washington 98052-6399 (US)
Inventors: STOLCKE, Andreas; (US).
SLANEY, Malcolm; (US).
YELLA, Sree Harsha; (US)
Agent: MINHAS, Sandip; (US).
HILL, Justin; Olswang LLP 90 High Holborn London WC1V 6XX (GB)
Priority Data:
14/504,722 02.10.2014 US
Title (EN) NEURAL NETWORK-BASED SPEECH PROCESSING
(FR) TRAITEMENT DE LA PAROLE BASÉ SUR UN RÉSEAU NEURONAL
Abstract: front page image
(EN)Pairs of feature vectors are obtained that represent speech. Some pairs represent two samples of speech from the same speakers, and other pairs represent two samples of speech from different speakers. A neural network feeds each feature vector in a sample pair into a separate bottleneck layer, with a weight matrix on the input of both vectors tied to one another. The neural network is trained using the feature vectors and an objective function that induces the network to classify whether the speech samples come from the same speaker. The weights from the tied weight matrix are extracted for use in generating derived features for a speech processing system that can benefit from features that are thus transformed to better reflect speaker identity.
(FR)La présente invention concerne des paires de vecteurs de caractéristiques obtenues qui représentent des paroles. Certaines paires représentent deux échantillons de parole provenant des mêmes locuteurs, et d'autres paires représentent deux échantillons de parole provenant de locuteurs différents. Un réseau neuronal introduit chaque vecteur de caractéristique d'une paire d'échantillon dans une couche de goulot d'étranglement séparée, avec une matrice de pondération sur l'entrée des deux vecteurs liée à chacun. Ledit réseau neuronal est entraîné au moyen des vecteurs de caractéristique et d'une fonction objective qui induit le réseau à classer si les échantillons de parole proviennent du même locuteur. Les pondérations de la matrice de pondération liée sont extraites pour être utilisées dans la génération de caractéristiques dérivées, pour un système de traitement de la parole pouvant bénéficier de caractéristiques qui sont ainsi transformées pour mieux refléter l'identité du locuteur.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)