WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2014182976) SPEECH TO TEXT CONVERSION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2014/182976    International Application No.:    PCT/US2014/037410
Publication Date: 13.11.2014 International Filing Date: 09.05.2014
IPC:
G10L 15/26 (2006.01), G06F 1/16 (2006.01)
Applicants: MICROSOFT TECHNOLOGY LICENSING, LLC [US/US]; One Microsoft Way Redmond, WA 98052 (US)
Inventors: MCCULLOCH, Daniel; (US).
LEE, Abby Lin; (US).
SMITH-KIPNIS, Adam Benjamin; (US).
PLUMB, Jonathan William; (US).
DAVID, Alexandre; (US).
HALE, Michael O.; (US).
COLE, Jeff; (US).
LANGERAK, Hendrik Mark; (US)
Priority Data:
13/892,094 10.05.2013 US
Title (EN) SPEECH TO TEXT CONVERSION
(FR) CONVERSION DE PAROLE EN TEXTE
Abstract: front page image
(EN)Embodiments that relate to converting audio inputs from an environment into text are disclosed. For example, in one disclosed embodiment a speech conversion program receives audio inputs from a microphone array of a head-mounted display device. Image data is captured from the environment, and one or more possible faces are detected from image data. Eye-tracking data is used to determine a target face on which a user is focused. A beamforming technique is applied to at least a portion of the audio inputs to identify target audio inputs that are associated with the target face. The target audio inputs are converted into text that is displayed via a transparent display of the head-mounted display device.
(FR)Des modes de réalisation de l'invention concernent la conversion d'entrées audio depuis un environnement en texte. Dans un mode de réalisation décrit, par exemple, un programme de conversion de parole reçoit des entrées audio de la part d'un réseau de microphones d'un dispositif d'affichage facial. Des données d'image de l'environnement sont capturées et une ou plusieurs faces possibles sont détectées à partir des données d'image. Des données de poursuite des yeux sont utilisées pour déterminer une face cible sur laquelle un utilisateur se concentre. Une technique de formage du faisceau est appliquée à au moins une portion des entrées audio pour identifier les entrées audio cibles qui sont associées à la face cible. Les entrées audio cibles sont converties en texte qui est affiché par le biais d'un afficheur transparent sur le dispositif d'affichage facial.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)