Traitement en cours

Veuillez attendre...

PATENTSCOPE sera indisponible durant quelques heures pour des raisons de maintenance le samedi 31.10.2020 à 7:00 AM CET
Paramétrages

Paramétrages

Aller à Demande

1. WO2020197853 - EXTRACTION VIDÉO EFFICACE ET FINE

Numéro de publication WO/2020/197853
Date de publication 01.10.2020
N° de la demande internationale PCT/US2020/023136
Date du dépôt international 17.03.2020
CIB
G06F 16/732 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
73Requêtes
732Formulation de requêtes
G06F 16/78 2019.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
16Recherche d’informations; Structures de bases de données à cet effet; Structures de systèmes de fichiers à cet effet
70de données vidéo
78Recherche de données caractérisée par l’utilisation de métadonnées, p.ex. de métadonnées ne provenant pas du contenu ou de métadonnées générées manuellement
G06F 40/20 2020.01
GPHYSIQUE
06CALCUL; COMPTAGE
FTRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
40Manipulation de données en langage naturel
20Analyse du langage naturel
G06N 3/08 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
NSYSTÈMES DE CALCULATEURS BASÉS SUR DES MODÈLES DE CALCUL SPÉCIFIQUES
3Systèmes de calculateurs basés sur des modèles biologiques
02utilisant des modèles de réseaux neuronaux
08Méthodes d'apprentissage
CPC
G06F 16/243
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
20of structured data, e.g. relational data
24Querying
242Query formulation
243Natural language query formulation
G06F 16/71
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
71Indexing; Data structures therefor; Storage structures
G06F 40/40
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
40Handling natural language data
40Processing or translation of natural language
G06N 3/0445
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0445Feedback networks, e.g. hopfield nets, associative networks
G06N 3/0454
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0454using a combination of multiple neural nets
G06N 3/0481
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architectures, e.g. interconnection topology
0481Non-linear activation functions, e.g. sigmoids, thresholds
Déposants
  • NEC LABORATORIES AMERICA, INC. [US]/[US]
Inventeurs
  • KADAV, Asim
  • MELVIN, Iain
  • GRAF, Hans, Peter
  • HAN, Meera
Mandataires
  • BITETTO, James, J.
Données relatives à la priorité
16/819,51316.03.2020US
62/822,17022.03.2019US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) EFFICIENT AND FINE-GRAINED VIDEO RETRIEVAL
(FR) EXTRACTION VIDÉO EFFICACE ET FINE
Abrégé
(EN)
A computer-implemented method for performing mini-batching in deep learning by improving cache utilization is presented. The method includes temporally localizing a candidate clip (114) in a video stream (105) based on a natural language query (112), encoding a state, via a state processing module (120), into a joint visual and linguistic representation, feeding the joint visual and linguistic representation into a policy learning module (150), wherein the policy learning module employs a deep learning network to selectively extract features for select frames for video-text analysis and includes a fully connected linear layer (152) and a long short-term memory (LSTM) (154), outputting a value function (156) from the LSTM, generating an action policy based on the encoded state, wherein the action policy is a probabilistic distribution over a plurality of possible actions given the encoded state, and rewarding policy actions that return clips matching the natural language query.
(FR)
L'invention concerne un procédé mis en œuvre par ordinateur pour réaliser une mini-mise en lots en apprentissage profond par amélioration de l'utilisation de mémoire cache. Le procédé consiste à localiser temporellement un clip candidat (114) dans un flux vidéo (105) sur la base d'une interrogation en langage naturel (112), à coder un état, par l'intermédiaire d'un module de traitement d'état (120), en une représentation visuelle et linguistique unifiée, à fournir la représentation visuelle et linguistique unifiée dans un module d'apprentissage de politique (150), le module d'apprentissage de politique utilisant un réseau d'apprentissage profond pour extraire sélectivement des caractéristiques de certaines trames pour une analyse de texte vidéo et comprenant une couche linéaire complètement connectée (152) et une longue mémoire à long terme (LSTM) (154), à faire sortir une fonction de valeur (156) à partir de la LSTM, à générer une politique d'action sur la base de l'état codé, la politique d'action étant une distribution probabiliste sur une pluralité d'actions possibles compte tenu de l'état codé, et à récompenser des actions de politique qui renvoient des clips correspondant à l'interrogation en langage naturel.
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international