WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2013149123) MONAURAL SPEECH FILTER
Latest bibliographic data on file with the International Bureau   

Pub. No.: WO/2013/149123 International Application No.: PCT/US2013/034564
Publication Date: 03.10.2013 International Filing Date: 29.03.2013
IPC:
G10L 15/16 (2006.01)
Applicants: THE OHIO STATE UNIVERSITY[US/US]; 1524 North High Street Columbus, OH 43201, US
Inventors: WANG, Yuxuan; US
WANG, Deliang; US
Agent: MINNICH, Richard J.; Fay Sharpe LLP The Halle Building, 5th Floor 1228 Euclid Avenue Cleveland, OH 44115-1843, US
Priority Data:
61/617,69530.03.2012US
Title (EN) MONAURAL SPEECH FILTER
(FR) FILTRE DE PAROLE MONAURAL
Abstract: front page image
(EN) A system receives monaural sound which includes speech and background noises. The received sound is divided by frequency and time into time-frequency units (TFUs). Each TFU is classified as speech or non-speech by a processing unit. The processing unit for each frequency range includes at least one of a deep neural network (DNN) or a linear support vector machine (LSVM). The DNN extracts and classifies the features of the TFU and includes a pre- trained stack of Restricted Boltzmann Machines (RBM), and each RBM includes a visible and a hidden layer. The LSVM classifies each TFU based on extracted features from the DNN, including those from the visible layer of the first RBM, and those from the hidden layer of the last RBM in the stack. The LSVM and DNN include training with a plurality of training noises. Each TFU classified as speech is output.
(FR) L'invention porte sur un système qui reçoit un son monaural qui comprend de la parole et des bruits de fond. Le son reçu est divisé en fréquence et en temps afin d'obtenir des unités temps-fréquence (TFU). Chaque TFU est classifiée en parole ou non-parole par une unité de traitement. L'unité de traitement pour chaque plage de fréquence comprend au moins un réseau de neurones profond (DNN) et/ou une machine à vecteur de support linéaire (LSVM). Le DNN extrait et classifie les caractéristiques de la TFU et comprend une pile de machines de Boltzmann restreinte (RBM) ayant subi un préapprentissage, et chaque RBM comprend une couche visible et une couche cachée. La LSVM classifie chaque TFU sur la base de caractéristiques extraites par le DNN, y compris celles issues de la couche visible de la première RBM, et celles issues de la couche cachée de la dernière RBM de la pile. La LSVM et le DNN comprennent un apprentissage avec une pluralité de bruits d'apprentissage. Chaque TFU classifiée comme étant de la parole est délivrée en sortie.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)