Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020112808 - SYSTÈME ET PROCÉDÉ DE CONVERSION DE DONNÉES D'IMAGE EN UNE DESCRIPTION DE LANGAGE NATUREL

Numéro de publication WO/2020/112808
Date de publication 04.06.2020
N° de la demande internationale PCT/US2019/063298
Date du dépôt international 26.11.2019
CIB
G06K 9/00 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
KRECONNAISSANCE DES DONNÉES; PRÉSENTATION DES DONNÉES; SUPPORTS D'ENREGISTREMENT; MANIPULATION DES SUPPORTS D'ENREGISTREMENT
9Méthodes ou dispositions pour la lecture ou la reconnaissance de caractères imprimés ou écrits ou pour la reconnaissance de formes, p.ex. d'empreintes digitales
G06K 9/46 2006.01
GPHYSIQUE
06CALCUL; COMPTAGE
KRECONNAISSANCE DES DONNÉES; PRÉSENTATION DES DONNÉES; SUPPORTS D'ENREGISTREMENT; MANIPULATION DES SUPPORTS D'ENREGISTREMENT
9Méthodes ou dispositions pour la lecture ou la reconnaissance de caractères imprimés ou écrits ou pour la reconnaissance de formes, p.ex. d'empreintes digitales
36Prétraitement de l'image, c. à d. traitement de l'information image sans se préoccuper de l'identité de l'image
46Extraction d'éléments ou de caractéristiques de l'image
H04N 5/278 2006.01
HÉLECTRICITÉ
04TECHNIQUE DE LA COMMUNICATION ÉLECTRIQUE
NTRANSMISSION D'IMAGES, p.ex. TÉLÉVISION
5Détails des systèmes de télévision
222Circuits de studio; Dispositifs de studio; Equipements de studio
262Circuits de studio, p.ex. pour mélanger, commuter, changer le caractère de l'image, pour d'autres effets spéciaux
278Sous-titrage
CPC
G06F 16/383
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
30of unstructured textual data
38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
383using metadata automatically derived from the content
G06F 16/583
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
50of still image data
58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
583using metadata automatically derived from the content
G06K 9/3241
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
20Image acquisition
32Aligning or centering of the image pick-up or image-field
3233Determination of region of interest
3241Recognising objects as potential recognition candidates based on visual cues, e.g. shape
G06N 5/046
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
5Computer systems using knowledge-based models
04Inference methods or devices
046Forward inferencing; Production systems
Déposants
  • SONY INTERACTIVE ENTERTAINMENT INC. [JP]/[JP]
  • ZHENG, Jian [US]/[US] (US)
  • CHEN, Ruxin [US]/[US] (US)
Inventeurs
  • ZHENG, Jian
  • CHEN, Ruxin
Mandataires
  • ROGITZ, John L.
Données relatives à la priorité
16/206,43930.11.2018US
Langue de publication anglais (EN)
Langue de dépôt anglais (EN)
États désignés
Titre
(EN) SYSTEM AND METHOD FOR CONVERTING IMAGE DATA INTO A NATURAL LANGUAGE DESCRIPTION
(FR) SYSTÈME ET PROCÉDÉ DE CONVERSION DE DONNÉES D'IMAGE EN UNE DESCRIPTION DE LANGAGE NATUREL
Abrégé
(EN)
For image captioning such as for computer game images or other images, bottom-up attention (400) is combined with top-down attention (402) to provide a multi-level residual attention-based image captioning model. A residual attention mechanism (500) is first applied in the Faster R-CNN network to learn better feature representations for each region by taking spatial information into consideration. In the image captioning network, taking the extracted regional features as input, a second residual attention network (1204) is implemented to fuse the regional features attentionally for subsequent caption generation.
(FR)
Pour le sous-titrage d'images tel que pour des images de jeu d'ordinateur ou d'autres images, une attention de bas en haut (400) est combinée à une attention de haut en bas (402) pour fournir un modèle de sous-titrage d'image basé sur l'attention résiduelle à plusieurs niveaux. Un mécanisme d'attention résiduel (500) est tout d'abord appliqué dans le réseau R-CNN plus rapide pour apprendre de meilleures représentations de caractéristiques pour chaque région en prenant en considération des informations spatiales. Dans le réseau de sous-titrage d'image, en adoptant les caractéristiques régionales extraites en tant qu'entrée, un second réseau d'attention résiduelle (1204) est implémenté pour fusionner les caractéristiques régionales en fonction de l'attention pour la génération de sous-titres ultérieurs.
Également publié en tant que
Dernières données bibliographiques dont dispose le Bureau international