WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2013058728) SPEECH SIGNAL ENHANCEMENT USING VISUAL INFORMATION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2013/058728    International Application No.:    PCT/US2011/056552
Publication Date: 25.04.2013 International Filing Date: 17.10.2011
IPC:
G10L 21/02 (2013.01), H04N 7/15 (2006.01), H04N 1/40 (2006.01), H04M 3/56 (2006.01), H04R 3/00 (2006.01), H04R 3/04 (2006.01)
Applicants: NUANCE COMMUNICATIONS, INC. [US/US]; 1 Wayside Road, Suite 100 Burlington, MA 01803-4613 (US) (For All Designated States Except US).
HERBIG, Tobias [DE/DE]; (DE) (For US Only).
WOLFF, Tobias [DE/DE]; (DE) (For US Only).
BUCK, Markus [DE/DE]; (DE) (For US Only)
Inventors: HERBIG, Tobias; (DE).
WOLFF, Tobias; (DE).
BUCK, Markus; (DE)
Agent: DURKEE, Paul D.; Daly, Crowley, Mofford & Durkee, LLP 354A Turnpike Street, Suite 301A Canton, MA 02021-2714 (US)
Priority Data:
Title (EN) SPEECH SIGNAL ENHANCEMENT USING VISUAL INFORMATION
(FR) AMÉLIORATION DE SIGNAL DE PAROLES À L'AIDE D'INFORMATIONS VISUELLES
Abstract: front page image
(EN)Visual information is used to alter or set an operating parameter of an audio signal processor, other than a beamformer. A digital camera captures visual information about a scene that includes a human speaker and/or a listener. The visual information is analyzed to ascertain information about acoustics of a room. A distance between the speaker and a microphone may be estimated, and this distance estimate may be used to adjust an overall gain of the system. Distances among, and locations of, the speaker, the listener, the microphone, a loudspeaker and/or a sound- reflecting surface may be estimated. These estimates may be used to estimate reverberations within the room and adjust aggressiveness of an anti-reverberation filter, based on an estimated ratio of direct to indirect (reverberated) sound energy expected to reach the microphone. In addition, orientation of the speaker or the listener, relative to the microphone or the loudspeaker, can also be estimated, and this estimate may be used to adjust frequency-dependent filter weights to compensate for uneven frequency propagation of acoustic signals from a mouth, or to a human ear, about a human head.
(FR)Selon l'invention, des informations visuelles sont utilisées pour altérer ou régler un paramètre de fonctionnement d'un processeur de signal audio, autre qu'un dispositif de formation de faisceau. Une caméra numérique capture des informations visuelles concernant une scène qui comprend un locuteur humain et/ou un auditeur. Les informations visuelles sont analysées pour déterminer des informations concernant l'acoustique d'une pièce. Une distance entre le locuteur et un microphone peut être estimée, et cette estimation de distance peut être utilisée pour ajuster un gain global du système. Des distances entre, et des emplacements de, le locuteur, l'auditeur, le microphone, un haut-parleur et/ou une surface réfléchissant les sons peuvent être estimés. Ces estimations peuvent être utilisées pour estimer des réverbérations à l'intérieur de la pièce et ajuster l'agressivité d'un filtre anti-réverbération, sur la base d'un rapport estimé de l'énergie sonore directe sur l'énergie sonore indirecte (réverbérée) censées atteindre le microphone. En outre, l'orientation du locuteur ou de l'auditeur, par rapport au microphone ou au haut-parleur, peut également être estimée, et cette estimation peut être utilisée pour ajuster des coefficients de filtre en fonction de la fréquence pour compenser la propagation de fréquence irrégulière de signaux acoustiques à partir d'une bouche, ou vers une oreille d'être humain, autour d'une tête d'être humain.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)