Processing

Please wait...

Settings

Settings

1. WO2020001163 - METHOD AND DEVICE FOR SPEECH RECOGNITION, COMPUTER DEVICE, AND ELECTRONIC DEVICE

Publication Number WO/2020/001163
Publication Date 02.01.2020
International Application No. PCT/CN2019/085625
International Filing Date 06.05.2019
IPC
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15
Speech recognition
26
Speech to text systems
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
15
Speech recognition
08
Speech classification or search
16
using artificial neural networks
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
21
Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
02
Speech enhancement, e.g. noise reduction or echo cancellation
0208
Noise filtering
0216
characterised by the method used for estimating noise
G10L 15/26 (2006.01)
G10L 15/16 (2006.01)
G10L 21/0216 (2013.01)
CPC
G10L 15/16
G10L 15/26
G10L 2021/02166
G10L 21/0216
Applicants
  • 腾讯科技(深圳)有限公司 TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED [CN/CN]; 中国广东省深圳市 南山区高新区科技中一路腾讯大厦35层 35/F, Tencent Building Kejizhongyi Road, Midwest District of Hi-tech Park, Nanshan District Shenzhen, Guangdong 518057, CN
Inventors
  • 高毅 GAO, Yi; CN
  • 郑脊萌 ZHENG, Jimeng; CN
  • 于蒙 YU, Meng; CN
  • 罗敏 LUO, Min; CN
Agents
  • 北京三高永信知识产权代理有限责任公司 BEIJING SAN GAO YONG XIN INTELLECTUAL PROPERTY AGENCY CO., LTD.; 中国北京市 海淀区学院路蓟门里和景园A座1单元102室 A-1-102, He Jing Yuan, Ji Men Li, Xueyuan Road, Haidian District Beijing 100088, CN
Priority Data
201810689667.528.06.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) METHOD AND DEVICE FOR SPEECH RECOGNITION, COMPUTER DEVICE, AND ELECTRONIC DEVICE
(FR) PROCÉDÉ ET DISPOSITIF DE RECONNAISSANCE VOCALE, DISPOSITIF D'ORDINATEUR ET DISPOSITIF ÉLECTRONIQUE
(ZH) 语音识别方法和装置、计算机设备和电子设备
Abstract
(EN)
The present application relates to a method and device for speech recognition, a computer device, and an electronic device. The method comprises: receiving an audio signal captured by a microphone array; performing beamforming processing of the audio signal respectively in multiple different target directions to produce multiple corresponding beamforming signals; performing speech recognition respectively with respect to each beamforming signal to produce speech recognition results of the beamforming signals; and determining a speech recognition result of the audio signal on the basis of the speech recognition results of the beamforming signals. The method obviates the need to take into consideration the direction of a sound source, with beamforming processing performed in the different target directions, at least one of the target directions comes close to the actual direction in which sound is generated; therefore, the beamforming signal in at least one of the target directions is clear when enhanced, thus allowing speech recognition to be performed on the basis of the beamforming signals, and increasing the accuracy of speech recognition.
(FR)
La présente invention concerne un procédé et un dispositif de reconnaissance vocale, un dispositif d'ordinateur et un dispositif électronique. Le procédé consiste : à recevoir un signal audio capturé par un réseau de microphones ; à réaliser un traitement de formation de faisceau du signal audio respectivement dans de multiples directions cibles différentes pour produire de multiples signaux de formation de faisceau correspondants ; à effectuer une reconnaissance vocale respectivement par rapport à chaque signal de formation de faisceau pour produire des résultats de reconnaissance vocale des signaux de formation de faisceau ; et à déterminer un résultat de reconnaissance vocale du signal audio sur la base des résultats de reconnaissance vocale des signaux de formation de faisceau. Le procédé évite d'avoir à prendre en considération la direction d'une source sonore, avec un traitement de formation de faisceau effectué dans les différentes directions cibles, au moins l'une des directions cibles étant proche de la direction réelle dans laquelle un son est généré ; par conséquent, le signal de formation de faisceau dans au moins l'une des directions cibles est clair lorsqu'il est amélioré, ce qui permet d'effectuer une reconnaissance vocale sur la base des signaux de formation de faisceau, et d'augmenter la précision de la reconnaissance vocale.
(ZH)
本申请涉及一种语音识别方法、装置、计算机设备和电子设备,方法包括:接收麦克风阵列采集的音频信号;将音频信号在多个不同目标方向分别进行波束形成处理,得到对应的多路波束信号;分别对每路波束信号进行语音识别,得到各路波束信号的语音识别结果;根据各路波束信号的语音识别结果,确定音频信号的语音识别结果。该方法无需考虑声源方向,通过在不同目标方向进行波束形成处理,使得至少一个目标方向与实际声音产生方向接近,因而至少一个在目标方向进行增强后的波束信号是清楚的,因而根据各波束信号进行语音识别,能够提高语音识别准确率。
Latest bibliographic data on file with the International Bureau