Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020192009 - SILENCE DETECTION METHOD BASED ON NEURAL NETWORK, AND TERMINAL DEVICE AND MEDIUM

Publication Number WO/2020/192009
Publication Date 01.10.2020
International Application No. PCT/CN2019/103149
International Filing Date 29.08.2019
IPC
G10L 25/03 2013.01
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/-G10L21/129
03characterised by the type of extracted parameters
CPC
G10L 2025/783
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
78Detection of presence or absence of voice signals
783based on threshold decision
G10L 25/03
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
03characterised by the type of extracted parameters
G10L 25/30
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
27characterised by the analysis technique
30using neural networks
G10L 25/78
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
25Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
78Detection of presence or absence of voice signals
Applicants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY(SHENZHEN)CO., LTD. [CN]/[CN]
Inventors
  • 房树明 FANG, Shuming
  • 程宁 CHENG, Ning
  • 王健宗 WANG, Jianzong
Agents
  • 深圳中一联合知识产权代理有限公司 SHENZHEN ZHONGYI UNION INTELLECTUAL PROPERTY AGENCY CO., LTD.
Priority Data
201910226470.225.03.2019CN
Publication Language Chinese (ZH)
Filing Language Chinese (ZH)
Designated States
Title
(EN) SILENCE DETECTION METHOD BASED ON NEURAL NETWORK, AND TERMINAL DEVICE AND MEDIUM
(FR) PROCÉDÉ DE DÉTECTION DE SILENCE REPOSANT SUR UN RÉSEAU NEURONAL, ET DISPOSITIF TERMINAL ET SUPPORT
(ZH) 一种基于神经网络的静音检测方法、终端设备及介质
Abstract
(EN)
Disclosed are a silence detection method based on a neural network, and a terminal device and a non-volatile computer-readable storage medium in the technical field of artificial intelligence. The method comprises: sampling, on the basis of a preset sampling frequency, an original audio signal to be detected, so as to obtain a sampling signal corresponding to the original audio signal (S1); performing framing processing on the sampling signal on the basis of a preset receptive field length so as to obtain at least two frames of audio subsequences (S2); inputting the audio subsequences into a pretrained silence detection model so as to obtain feature values of the audio subsequences, wherein the silence detection model is a one-dimensional convolutional neural network model, the feature values of the audio subsequences are used for representing the probabilities of audio segments corresponding to the audio subsequences being speech signals, and the feature values are one-dimensional values (S3); and if the feature values of the audio subsequences are greater than or equal to a preset feature value threshold, determining that the audio segments corresponding to the audio subsequences are speech signals (S4). Thus, the efficiency and accuracy of silence detection are improved.
(FR)
L'invention concerne un procédé de détection de silence reposant sur un réseau neuronal, et un dispositif terminal et un support de stockage non volatil lisible par ordinateur, appartenant au domaine technique de l'intelligence artificielle. Le procédé consiste à : échantillonner, sur la base d'une fréquence d'échantillonnage préréglée, un signal audio d'origine à détecter, de façon à obtenir un signal d'échantillonnage correspondant au signal audio d'origine (S1); effectuer un traitement de division en trames sur le signal d'échantillonnage sur la base d'une longueur de champ récepteur préréglée de façon à obtenir au moins deux trames de sous-séquences audio (S2); introduire les sous-séquences audio dans un modèle de détection de silence pré-entraîné de façon à obtenir des valeurs de caractéristiques des sous-séquences audio, le modèle de détection de silence étant un modèle de réseau neuronal convolutif unidimensionnel, les valeurs de caractéristiques des sous-séquences audio étant utilisées pour représenter les probabilités que des segments audio correspondant aux sous-séquences audio soient des signaux de parole, et les valeurs de caractéristiques étant des valeurs unidimensionnelles (S3); et si les valeurs de caractéristiques des sous-séquences audio sont supérieures ou égales à un seuil de valeur de caractéristique préréglé, déterminer que les segments audio correspondant aux sous-séquences audio sont des signaux de parole (S4). Par conséquent, l'efficacité et la précision de la détection de silence sont améliorées.
(ZH)
人工智能技术领域的一种基于神经网络的静音检测方法、终端设备及计算机非易失性可读存储介质,通过基于预设采样频率对待检测的原始音频信号进行采样,得到原始音频信号对应的采样信号(S1);基于预设感受野长度对采样信号进行分帧处理,得到至少两帧音频子序列(S2);将音频子序列输入至预先训练好的静音检测模型,得到音频子序列的特征值;静音检测模型为一维卷积神经网络模型,音频子序列的特征值用于表征音频子序列对应的音频段为语音信号的概率,特征值为一维数值(S3);若音频子序列的特征值大于或等于预设特征值阈值,则确定音频子序列对应的音频段为语音信号(S4),从而提高了静音检测的效率及准确率。
Also published as
Latest bibliographic data on file with the International Bureau