WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2002029784) AUDIO VISUAL SPEECH PROCESSING
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2002/029784    International Application No.:    PCT/US2001/030727
Publication Date: 11.04.2002 International Filing Date: 01.10.2001
Chapter 2 Demand Filed:    12.04.2002    
IPC:
G06K 9/68 (2006.01), G10L 15/24 (2006.01)
Applicants: CLARITY, LLC [US/US]; 3290 West Big Beaver Road Suite 220 Troy, MI 48084 (US).
ERTEN, Gamze [US/US]; (US) (For US Only)
Inventors: ERTEN, Gamze; (US)
Agent: CHUEY, Mark, D.; Brooks & Kushman 1000 Town Center Twenty-Second Floor Southfield, MI 48075 (US)
Priority Data:
60/236,720 02.10.2000 US
Title (EN) AUDIO VISUAL SPEECH PROCESSING
(FR) TRAITEMENT DE LA PAROLE PAR INFORMATIONS AUDIO ET VISUELLES
Abstract: front page image
(EN)Recognizing and enhancing speech (22) is accomplished by fusing audio and visual speech recognition. An audio speech recognizer (70) determines a subset of speech elements (72) for speech segments (22) received from at least one audio transducer (66). A visual speech recognizer (74) determines a figure of merit (80) for at least one speech element (22) based on at least one image (64) received from at least one visual transducer (62). Speech (22) may also be enhanced by variably filtering (136) or editing (182) received audio signals (68) based on at least one visual speech parameter (134).
(FR)La présente invention permet de reconnaître et d'améliorer la parole (22) en combinant la reconnaissance audio et visuelle de la parole. Un reconnaisseur de paroles à informations audio (70) détermine un sous-ensemble d'éléments de paroles (72) pour des segments de paroles (22) reçus à partir d'au moins un transducteur audio (66). Un reconnaisseur de paroles (74) à informations visuelles détermine un facteur de qualité (80) pour au moins un élément de parole (22) basé sur au moins une image (64) reçue à partir d'au moins un transducteur visuel (62). La parole (22) peut également être améliorée en filtrant de manière variable (136) ou en éditant (182) des signaux audio reçus (68) sur la base d'au moins un paramètre (134) de paroles à informations visuelles .
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PH, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW.
African Regional Intellectual Property Organization (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)