Processing

Please wait...

Settings

Settings

Goto Application

1. WO2021092632 - WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING

Publication Number WO/2021/092632
Publication Date 14.05.2021
International Application No. PCT/US2021/019817
International Filing Date 26.02.2021
IPC
G06F 16/783 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
783using metadata automatically derived from the content
G06F 16/738 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
73Querying
738Presentation of query results
G06F 16/732 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
73Querying
732Query formulation
G06N 3/08 2006.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 20/00 2019.1
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
20Machine learning
CPC
G06F 16/783
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
783using metadata automatically derived from the content
Applicants
  • INNOPEAK TECHNOLOGY, INC. [US]/[US]
Inventors
  • CHEN, Jiawei
  • HSIAO, Jenhao
Agents
  • WANG, Jianbai
  • BERNSTEIN, David, P.
  • CRISMAN, Douglas, J.
  • CHOU, Catherine, S.
  • BREGMAN, Dion, M.
Priority Data
Publication Language English (en)
Filing Language English (EN)
Designated States
Title
(EN) WEAKLY-SUPERVISED TEXT-BASED VIDEO MOMENT RETRIEVAL VIA CROSS ATTENTION MODELING
(FR) RÉCUPÉRATION DE MOMENT VIDÉO À BASE DE TEXTE FAIBLEMENT SUPERVISÉ PAR MODÉLISATION DE L'ATTENTION CROISÉE
Abstract
(EN) An electronic device obtains video content and a textual query associated with a video moment in the video content. The video content is divided video segments, and the textual query includes one or more words. Visual features are extracted for each video segment, and textual features are extracted for each word. The visual features and the textual features are combined to generate a similarity matrix in which each element represents a similarity level between a respective video segment and a respective word. Segment-attended sentence features are generated for the textual query based on the textual features and the similarity matrix. The segment-attended sentence features are combined with the visual features of the video segments to determine a plurality of alignment scores, which is used to retrieve a subset of the video content associated with the textual query to be retrieved from the video segments.
(FR) Un dispositif électronique obtient un contenu vidéo et une requête textuelle associée à un moment vidéo dans le contenu vidéo. Le contenu vidéo est divisé en segments vidéo, et la requête textuelle comprend un ou plusieurs mots. Des caractéristiques visuelles sont extraites pour chaque segment vidéo, et des caractéristiques textuelles sont extraites pour chaque mot. Les caractéristiques visuelles et les caractéristiques textuelles sont combinées pour générer une matrice de similarité dans laquelle chaque élément représente un niveau de similarité entre un segment vidéo respectif et un mot respectif. Des caractéristiques de phrase surveillées par segment sont générées pour la requête textuelle sur la base des caractéristiques textuelles et de la matrice de similarité. Les caractéristiques de phrases surveillées par segments sont combinées aux caractéristiques visuelles des segments vidéo pour déterminer une pluralité de scores d'alignement, qui est utilisée pour récupérer un sous-ensemble du contenu vidéo associé à la requête textuelle à récupérer dans les segments vidéo.
Latest bibliographic data on file with the International Bureau