Processing

Please wait...

Settings

Settings

1. WO2020029332 - RNN-BASED NOISE REDUCTION METHOD AND DEVICE FOR REAL-TIME CONFERENCE

Publication Number WO/2020/029332
Publication Date 13.02.2020
International Application No. PCT/CN2018/101820
International Filing Date 22.08.2018
IPC
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
21
Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
02
Speech enhancement, e.g. noise reduction or echo cancellation
0208
Noise filtering
0216
characterised by the method used for estimating noise
G PHYSICS
10
MUSICAL INSTRUMENTS; ACOUSTICS
L
SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
21
Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
02
Speech enhancement, e.g. noise reduction or echo cancellation
0208
Noise filtering
0216
characterised by the method used for estimating noise
0224
Processing in the time domain
G10L 21/0216 (2013.01)
G10L 21/0224 (2013.01)
CPC
G10L 21/0216
G10L 21/0224
G10L 21/0232
G10L 25/18
G10L 25/45
Applicants
  • 厦门亿联网络技术股份有限公司 YEALINK (XIAMEN) NETWORK TECHNOLOGY CO., LTD. [CN/CN]; 中国福建省厦门市 湖里区高新园区岭下北路1号 No. 1 Lingxia North Road High Tech Park, Huli District Xiamen, Fujian 361009, CN
Inventors
  • 康元勋 KANG, Yuanxun; CN
Agents
  • 广州三环专利商标代理有限公司 SCIHEAD IP LAW FIRM; 中国广东省广州市 越秀区先烈中路80号汇华商贸大厦1508室 Room 1508 Huihua Commercial & Trade Building No. 80 Xian Lie Zhong Road, Yuexiu District Guangzhou, Guangdong 510070, CN
Priority Data
201810904699.209.08.2018CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) RNN-BASED NOISE REDUCTION METHOD AND DEVICE FOR REAL-TIME CONFERENCE
(FR) PROCÉDÉ ET DISPOSITIF DE RÉDUCTION DE BRUIT FONDÉ SUR RNN POUR UNE CONFÉRENCE EN TEMPS RÉEL
(ZH) 一种基于RNN的实时会议降噪方法及装置
Abstract
(EN)
Disclosed are an RNN-based noise reduction method for a real-time conference. Framing and windowing is performed on a voice signal to acquire a logarithmic spectrum of the voice signal. The logarithmic spectrum is input into an RNN model to determine a noise reduction suppression coefficient. A voice signal with reduced noise is acquired by means of a logarithmic spectrum of the noise reduction suppression coefficient to an original signal, thereby realizing application of the RNN-based noise reduction method in a real-time conference. The invention uses the feature that a GRU model can to a certain extent retain information of previous time points, so as to select a suitable window length for framing and windowing of a voice signal, such that when an RNN model is used for estimation, one only needs to input a logarithmic spectrum of a current frame. The RNN model of the invention has a low requirement for input information, and eliminates the need for significant preprocessing of a received voice signal, thereby reducing the amount of computation, increasing response speed, and improving real-time performance. The invention provides an RNN-based noise reduction method applicable to a real-time conference.
(FR)
La présente invention concerne un procédé de réduction de bruit fondé sur RNN pour une conférence en temps réel. Le tramage et le fenêtrage sont effectués sur un signal vocal pour acquérir un spectre logarithmique du signal vocal. Le spectre logarithmique est entré dans un modèle RNN pour déterminer un coefficient de suppression de réduction de bruit. Un signal vocal à bruit réduit est acquis au moyen d'un spectre logarithmique du coefficient de suppression de réduction de bruit d'un signal d'origine, ce qui permet d’exécuter l'application du procédé de réduction de bruit fondé sur RNN dans une conférence en temps réel. L'invention utilise la fonction qui permet à un modèle GRU de retenir, dans une certaine mesure, des informations de points temporels précédents, de façon à sélectionner une longueur de fenêtre appropriée pour le cadrage et le fenêtrage d'un signal vocal, de telle sorte que, lorsqu'un modèle RNN est utilisé pour une estimation, il suffit d'entrer un spectre logarithmique d'une trame actuelle. Le modèle RNN de l'invention requiert peu d'informations entrées, et élimine la nécessité d'effectuer un prétraitement considérable d'un signal vocal reçu, ce qui permet de réduire la quantité de calculs, d'augmenter la vitesse de réponse et d'améliorer les performances en temps réel. L'invention concerne un procédé de réduction de bruit fondé sur RNN applicable à une conférence en temps réel.
(ZH)
本发明公开了一种基于RNN的实时会议降噪方法,对语音信号进行分帧加窗处理得到语音信号的对数谱,将对数谱放入RNN模型中确定降噪抑制系数,通过降噪抑制系数到原始信号的对数谱得到降噪后的语音信号,实现了将RNN降噪方法在实时会议中的应用。由于本发明利用了GRU模型可以一定程度上保留前些时刻的信息的特点为语音信号的分帧加窗选择了合适的窗长,所以在输入RNN模型进行估算时,仅需输入当前帧的对数谱,本发明所述的RNN模型对输入信息的要求低,无需对接收到的语音信号做大量的预处理,这也进一步的减少了运算量,加快了响应速度,提高了实时性,提供了一种可以在实时会议中使用的基于RNN的降噪方法。
Latest bibliographic data on file with the International Bureau