Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2018145584) PROCÉDÉ DE DÉTECTION D'ACTIVITÉ VOCALE ET PROCÉDÉ DE RECONNAISSANCE VOCALE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2018/145584 N° de la demande internationale : PCT/CN2018/074311
Date de publication : 16.08.2018 Date de dépôt international : 26.01.2018
CIB :
G10L 15/04 (2013.01)
G PHYSIQUE
10
INSTRUMENTS DE MUSIQUE; ACOUSTIQUE
L
ANALYSE OU SYNTHÈSE DE LA PAROLE; RECONNAISSANCE DE LA PAROLE; TRAITEMENT DE LA PAROLE OU DE LA VOIX; CODAGE OU DÉCODAGE DE LA PAROLE OU DE SIGNAUX AUDIO
15
Reconnaissance de la parole
04
Segmentation; Détection des limites de mots
Déposants :
芋头科技(杭州)有限公司 YUTOU TECHNOLOGY (HANGZHOU) CO., LTD. [CN/CN]; 中国浙江省杭州市 余杭区五常街道西溪艺术集合村莲公荡路10号101室 Room 101, No.10 Liangongdang Road, Xixi Art Village, Wuchang sub-district, Yuhang District Hangzhou City, Zhejiang 311199, CN
Inventeurs :
范利春 FAN, Lichun; CN
Mandataire :
上海申新律师事务所 SHANGHAI SHENXIN LAW FIRM; 中国上海市 长宁区延安西路726号华敏翰尊国际大厦15层J室 Suite J, 15th Floor, Huamin Empire Plaza, No. 726, West Yan An Road, Changning District Shanghai 200050, CN
Données relatives à la priorité :
201710076757.213.02.2017CN
Titre (EN) VOICE ACTIVITY DETECTION METHOD AND VOICE RECOGNITION METHOD
(FR) PROCÉDÉ DE DÉTECTION D'ACTIVITÉ VOCALE ET PROCÉDÉ DE RECONNAISSANCE VOCALE
(ZH) 一种语音端点检测方法及语音识别方法
Abrégé :
(EN) A voice activity detection method and a voice recognition method, belonging to the technical field of voice recognition. The method comprises: extracting a voice feature of voice data and inputting the same into a silence model (S1); the silence model outputting a label according to the voice feature, the label being used to indicate whether the voice data are silence frames (S2); confirming voice activity of a segment of voice according to labels of successive frames of voice data (S3): if the length of voice data in which non-silence frames continuously appear in an inactive state is greater than a preset first threshold, determining that voice data whose first frame is a non-silence frame are the starting point of a segment of voice; and if the length of voice data in which silence frames continuously appear in an active state is greater than a preset second threshold, determining that voice data whose first frame is a silence frame are the ending point of a segment of voice. The beneficial effect of the present invention is that: the problems of inaccurate voice activity detection and excessively high requirements for a detection environment in existing technology are solved.
(FR) La présente invention porte sur un procédé de détection d'activité vocale, ainsi que sur un procédé de reconnaissance vocale, appartenant au domaine technique de la reconnaissance vocale. Le procédé consiste : à extraire une caractéristique vocale de données vocales et à introduire cette dernière dans un modèle de silence (S1) ; à transmettre, au moyen du modèle de silence, une étiquette en fonction de la caractéristique vocale, l'étiquette étant utilisée pour indiquer si les données vocales sont des trames de silence (S2) ; à confirmer une activité vocale d'un segment de voix en fonction d'étiquettes de trames successives de données vocales (S3) : si la longueur de données vocales dans lesquelles des trames de non-silence apparaissent en continu dans un état inactif est supérieure à un premier seuil prédéfini, à déterminer que des données vocales dont la première trame est une trame de non-silence sont le point de départ d'un segment de voix ; et si la longueur de données vocales dans lesquelles des trames de silence apparaissent en continu dans un état actif est supérieure à un second seuil prédéfini, à déterminer que des données vocales dont la première trame est une trame de silence sont le point de fin d'un segment de voix. L'effet bénéfique de la présente invention est que : les problèmes de détection d'activité vocale imprécise et d'exigences excessivement élevées pour un environnement de détection dans une technologie existante sont résolus.
(ZH) 一种语音端点检测方法及语音识别方法,属于语音识别技术领域;方法包括:提取语音数据的语音特征并输入至静音模型中(S1);静音模型根据语音特征输出标签用于表示语音数据是否为静音帧(S2);根据连续帧的语音数据的标签确认一段语音的语音端点(S3):在非激活状态,若连续出现非静音帧的语音数据的长度大于一预设的第一阈值,则判断第一帧为非静音帧的语音数据为一段语音的起始端点;在激活状态,若连续出现静音帧的语音数据的长度大于一预设的第二阈值,则判断第一帧为静音帧的语音数据为一段语音的结束端点。有益效果是:解决现有技术中语音端点检测不准确以及对于检测环境要求过高的问题。
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)