WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |

Search International and National Patent Collections
World Intellectual Property Organization
Machine translation
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2016/095218    International Application No.:    PCT/CN2014/094409
Publication Date: 23.06.2016 International Filing Date: 19.12.2014
G10L 17/00 (2013.01), H04M 3/56 (2006.01)
Applicants: DOLBY LABORATORIES LICENSING CORPORATION [US/US]; 1275 Market Street San Francisco, CA 94103 (US)
Inventors: HUANG, Shen; (CN).
SUN, Xuejing; (CN)
Agent: KING & WOOD MALLESONS; 20th Floor, East Tower, World Financial Center, No. 1 Dongsanhuan Zhonglu, Chaoyang District Beijing 100020 (CN)
Priority Data:
Abstract: front page image
(EN)A method of speaker identification for audio content being of a format based on multiple channels is disclosed. The method comprises: extracting, from a first audio clip in the format, a plurality of spatial acoustic features across the multiple channels and location information, the first audio clip containing voices from a speaker (S201), constructing a first model for the speaker based on the spatial acoustic features and the location information, the first model indicating a characteristic of the voices from the speaker (S202), identifying whether the audio content contains voices from the speaker based on the first model (S203). Corresponding system and computer program product are also disclosed.
(FR)L'invention concerne un procédé d'identification d'orateur pour un contenu audio dont le format est en fonction de multiples canaux. Le procédé consiste : à extraire, d'un premier clip audio dans le format, une pluralité de caractéristiques acoustiques spatiales à travers les multiples canaux et des informations d'emplacement, le premier clip audio contenant des voix provenant d'un orateur (S201), à construire un premier modèle pour l'orateur sur la base des caractéristiques acoustiques spatiales et des informations d'emplacement, le premier modèle indiquant une caractéristique des voix provenant de l'orateur (S202), à identifier si le contenu audio contient des voix provenant de l'orateur sur la base du premier modèle (S203). L'invention concerne également un système et un produit programme d’ordinateur correspondants.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)