WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2016095218) SPEAKER IDENTIFICATION USING SPATIAL INFORMATION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2016/095218    International Application No.:    PCT/CN2014/094409
Publication Date: 23.06.2016 International Filing Date: 19.12.2014
IPC:
G10L 17/00 (2013.01), H04M 3/56 (2006.01)
Applicants: DOLBY LABORATORIES LICENSING CORPORATION [US/US]; 1275 Market Street San Francisco, CA 94103 (US)
Inventors: HUANG, Shen; (CN).
SUN, Xuejing; (CN)
Agent: KING & WOOD MALLESONS; 20th Floor, East Tower, World Financial Center, No. 1 Dongsanhuan Zhonglu, Chaoyang District Beijing 100020 (CN)
Priority Data:
Title (EN) SPEAKER IDENTIFICATION USING SPATIAL INFORMATION
(FR) IDENTIFICATION D'ORATEUR À L'AIDE D'INFORMATIONS SPATIALES
Abstract: front page image
(EN)A method of speaker identification for audio content being of a format based on multiple channels is disclosed. The method comprises: extracting, from a first audio clip in the format, a plurality of spatial acoustic features across the multiple channels and location information, the first audio clip containing voices from a speaker (S201), constructing a first model for the speaker based on the spatial acoustic features and the location information, the first model indicating a characteristic of the voices from the speaker (S202), identifying whether the audio content contains voices from the speaker based on the first model (S203). Corresponding system and computer program product are also disclosed.
(FR)L'invention concerne un procédé d'identification d'orateur pour un contenu audio dont le format est en fonction de multiples canaux. Le procédé consiste : à extraire, d'un premier clip audio dans le format, une pluralité de caractéristiques acoustiques spatiales à travers les multiples canaux et des informations d'emplacement, le premier clip audio contenant des voix provenant d'un orateur (S201), à construire un premier modèle pour l'orateur sur la base des caractéristiques acoustiques spatiales et des informations d'emplacement, le premier modèle indiquant une caractéristique des voix provenant de l'orateur (S202), à identifier si le contenu audio contient des voix provenant de l'orateur sur la base du premier modèle (S203). L'invention concerne également un système et un produit programme d’ordinateur correspondants.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)