Processing

Please wait...

Settings

Settings

Goto Application

1. WO2022001245 - METHOD AND APPARATUS FOR DETECTING PLURALITY OF TYPES OF SOUND EVENTS

Publication Number WO/2022/001245
Publication Date 06.01.2022
International Application No. PCT/CN2021/083752
International Filing Date 30.03.2021
IPC
G10L 17/02 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis or principal components; Feature selection or extraction
G10L 17/04 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/18 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
G10L 17/22 2013.1
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
22Interactive procedures; Man-machine interfaces
CPC
G10L 17/02
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
G10L 17/04
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
04Training, enrolment or model building
G10L 17/18
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
18Artificial neural networks; Connectionist approaches
G10L 17/22
GPHYSICS
10MUSICAL INSTRUMENTS; ACOUSTICS
LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
17Speaker identification or verification
22Interactive procedures; Man-machine interfaces
Applicants
  • 平安科技(深圳)有限公司 PING AN TECHNOLOGY (SHENZHEN) CO., LTD. [CN]/[CN]
Inventors
  • 刘博卿 LIU, Boqing
  • 王健宗 WANG, Jianzong
  • 张之勇 ZHANG, Zhiyong
  • 程宁 CHENG, Ning
Agents
  • 深圳市世联合知识产权代理有限公司 SL INTELLECTUAL PROPERTY CO., LTD.
Priority Data
202011186597.529.10.2020CN
Publication Language Chinese (zh)
Filing Language Chinese (ZH)
Designated States
Title
(EN) METHOD AND APPARATUS FOR DETECTING PLURALITY OF TYPES OF SOUND EVENTS
(FR) PROCÉDÉ ET APPAREIL POUR DÉTECTER UNE PLURALITÉ DE TYPES D'ÉVÉNEMENTS SONORES
(ZH) 多种声音事件的检测方法、装置、计算机设备及存储介质
Abstract
(EN) A method of detecting a plurality of types of sound events, comprising: extracting a sound source matrix from sound source data (S100); inputting the sound source matrix into a trained feature extraction network to extract a feature matrix of a sound event (S200); inputting the feature matrix into a trained weight gating loop layer, and on the basis of weights of preceding vectors in a feature matrix and a weight matrix of the weight gating loop layer, weighting corresponding subsequent vectors in the feature matrix to obtain a weighted feature matrix (S300); inputting the weighted feature matrix into a fully connected layer, and by means of the full connection, acquiring a probability matrix, the number of dimensions of the probability matrix corresponding to the number of classifications of sound events (S400); on the basis of the probability matrix, and determining a target sound event that has occurred (S600). The sound source matrix can be stored in a blockchain.
(FR) Procédé de détection d'une pluralité de types d'événements sonores, consistant à : extraire une matrice de source sonore à partir de données de source sonore (S100) ; entrer la matrice de source sonore dans un réseau d'extraction de caractéristiques entraîné pour extraire une matrice de caractéristiques d'un événement sonore (S200) ; entrer la matrice de caractéristiques dans une couche de boucle de portillonnage de poids entraînée, et sur la base de poids de vecteurs précédents dans une matrice de caractéristiques et une matrice de poids de la couche de boucle de portillonnage de poids, pondérer des vecteurs suivants correspondants dans la matrice de caractéristiques pour obtenir une matrice de caractéristiques pondérée (S300) ; entrer la matrice de caractéristiques pondérée dans une couche complètement connectée, et au moyen de la connexion complète, acquérir une matrice de probabilité, le nombre de dimensions de la matrice de probabilité correspondant au nombre de classifications d'événements sonores (S400) ; et sur la base de la matrice de probabilité, déterminer un événement sonore cible qui s'est produit (S600). La matrice de source sonore peut être stockée dans une chaîne de blocs.
(ZH) 一种多种声音事件的检测方法,包括从声源数据提取声源矩阵(S100);将声源矩阵输入到训练好的特征提取网络,以提取声音事件的特征矩阵(S200);将特征矩阵输入到训练好的权重门控循环层,根据权重门控循环层的权重矩阵和特征矩阵中的前项向量的权重,对特征矩阵中对应的后项向量加权,得到加权后的特征矩阵(S300);将加权后的特征矩阵输入到全连接层中,通过全连接获取概率矩阵,其中该概率矩阵的维数与声音事件的种类数量相对应(S400);根据概率矩阵,确定发生的目标声音事件(S600)。其中,声源矩阵可存储在区块链中。
Related patent documents
Latest bibliographic data on file with the International Bureau