WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2018052561) SPEAKER SEGMENTATION AND CLUSTERING FOR VIDEO SUMMARIZATION
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.:    WO/2018/052561    International Application No.:    PCT/US2017/045510
Publication Date: 22.03.2018 International Filing Date: 04.08.2017
IPC:
G11B 27/28 (2006.01), G06K 9/00 (2006.01)
Applicants: INTEL CORPORATION [US/US]; 2200 Mission College Boulevard Santa Clara, CA 95054 (US)
Inventors: CILINGIR, Gokcen; (US).
BISWAL, Narayan; (US)
Agent: MALONEY, Neil, F.; (US)
Priority Data:
15/264,126 13.09.2016 US
Title (EN) SPEAKER SEGMENTATION AND CLUSTERING FOR VIDEO SUMMARIZATION
(FR) SEGMENTATION ET REGROUPEMENT DE LOCUTEUR POUR RÉSUMÉ DE VIDÉO
Abstract: front page image
(EN)Techniques are provided for video summarization, based on speaker segmentation and clustering, to identify persons and scenes of interest. A methodology implementing the techniques according to an embodiment includes extracting audio content from a video stream and detecting one or more segments of the audio content that include the voice of a single speaker. The method also includes grouping the one or more detected segments into an audio cluster associated with the single speaker and providing a portion of the audio cluster to a user. The method further includes receiving an indication from the user that the single speaker is a person of interest. Segments of interest are then extracted from the video stream, where each segment of interest is associated with a scene that includes the person of interest. The extracted segments of interest are then combined into a summarization video.
(FR)L'invention concerne des techniques de résumé de vidéo, basées sur la segmentation et le regroupement de locuteur, permettant d'identifier des personnes et des scènes d'intérêt. Selon un mode de réalisation, une méthodologie mettant en oeuvre les techniques consiste à extraire un contenu audio d'un flux vidéo et à détecter un ou plusieurs segments du contenu audio comprenant la voix d'un seul locuteur. Le procédé comprend également le regroupement du ou des segments détectés dans un groupe audio associé au locuteur seul et la fourniture d'une partie du groupe audio à un utilisateur. Le procédé consiste en outre à recevoir une indication de l'utilisateur que le locuteur seul est une personne d'intérêt. Des segments d'intérêt sont ensuite extraits du flux vidéo, chaque segment d'intérêt étant associé à une scène qui comprend la personne d'intérêt. Les segments d'intérêt extraits sont ensuite combinés en une vidéo de résumé.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)