Processing

Please wait...

Settings

Settings

Goto Application

1. WO2021000597 - VOICE SIGNAL PROCESSING METHOD AND DEVICE, TERMINAL, AND STORAGE MEDIUM

Publication Number WO/2021/000597
Publication Date 07.01.2021
International Application No. PCT/CN2020/078944
International Filing Date 12.03.2020
IPC
G10L 19/16 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
19Speech or audio signal analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
04using predictive techniques
16Vocoder architecture
G10L 25/24 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/-G10L21/129
03characterised by the type of extracted parameters
24the extracted parameters being the cepstrum
G10L 25/30 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/-G10L21/129
27characterised by the analysis technique
30using neural networks
Applicants
  • 南方科技大学 SOUTHERN UNIVERSITY OF SCIENCE AND TECHNOLOGY. [CN]/[CN]
Inventors
  • 陈霏 CHEN, Fei
  • 叶富强 YE, Fuqiang
Agents
  • 北京品源专利代理有限公司 BEYOND ATTORNEYS AT LAW
Priority Data
201910593752.603.07.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) VOICE SIGNAL PROCESSING METHOD AND DEVICE, TERMINAL, AND STORAGE MEDIUM
(FR) PROCÉDÉ ET DISPOSITIF DE TRAITEMENT DE SIGNAL VOCAL, TERMINAL, ET SUPPORT DE STOCKAGE
(ZH) 语音信号的处理方法以及装置、终端及存储介质
Abstract
(EN)
A voice signal processing method and device, a terminal, and a storage medium. The method comprises: obtaining a compressed narrowband voice signal (S101); extracting a frequency domain feature of the narrowband voice signal (S102); inputting the frequency domain feature of the narrowband voice signal into a trained deep noise reduction self-encoder neural network model for nonlinear fitting, and obtaining a frequency domain feature of a full-band voice signal (S103); and converting the frequency domain feature of the full-band voice signal into a power spectrum of the full-band voice signal, performing inverse Fourier transformation on the power spectrum of the full-band voice signal by using phase information of a corresponding narrowband signal, and obtaining the full-band voice signal (S104). The compressed narrowband voice signal is subjected to bandwidth recovery by using the deep noise reduction self-encoder neural network model, thereby improving the quality and intelligibility of the voice signal.
(FR)
L'invention concerne un procédé et un dispositif de traitement de signal vocal, un terminal, et un support de stockage. Le procédé comprend les étapes consistant à : obtenir un signal vocal à bande étroite compressé (S101); extraire une caractéristique de domaine de fréquence du signal vocal à bande étroite (S102); entrer la caractéristique de domaine de fréquence du signal vocal à bande étroite dans un modèle de réseau neuronal profond entraîné autocodeur à réduction de bruit pour un ajustement non linéaire, et obtenir une caractéristique de domaine de fréquence d'un signal vocal à bande complète (S103); et convertir la caractéristique de domaine de fréquence du signal vocal à bande complète en un spectre de puissance du signal vocal à bande complète, effectuer une transformation de Fourier inverse sur le spectre de puissance du signal vocal à bande complète en utilisant des informations de phase d'un signal à bande étroite correspondant, et obtenir le signal vocal à bande complète (S104). Le signal vocal à bande étroite compressé est soumis à une récupération de bande passante en utilisant le modèle de réseau neuronal profond autocodeur à réduction de bruit, ce qui permet d'améliorer la qualité et l'intelligibilité du signal vocal.
(ZH)
一种语音信号的处理方法、装置、终端及存储介质,方法包括:获取压缩后的窄带语音信号(S101);提取窄带语音信号的频域特征(S102);将窄带语音信号的频域特征输入训练好的深度降噪自编码器神经网络模型进行非线性拟合,得到全频带语音信号的频域特征(S103);将全频带语音信号的频域特征转换为全频带语音信号的功率谱,使用相应窄带信号的相位信息对全频带语音信号的功率谱做傅里叶逆变换,得到全频带语音信号(S104)。通过使用深度降噪自编码器神经网络模型对压缩后窄带语音信号进行带宽恢复,提高了语音信号的质量和可懂度。
Latest bibliographic data on file with the International Bureau