Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020088763 - DEVICE AND METHOD FOR RECOGNIZING ACTIVITY IN VIDEOS

Publication Number WO/2020/088763
Publication Date 07.05.2020
International Application No. PCT/EP2018/079890
International Filing Date 31.10.2018
IPC
G06K 9/00 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
CPC
G06K 9/00771
GPHYSICS
06COMPUTING; CALCULATING; COUNTING
KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
00624Recognising scenes, i.e. recognition of a whole field of perception; recognising scene-specific objects
00771Recognising scenes under surveillance, e.g. with Markovian modelling of scene activity
Applicants
  • HUAWEI TECHNOLOGIES CO., LTD. [CN]/[CN]
  • REDZIC, Milan [RS]/[DE] (US)
Inventors
  • REDZIC, Milan
  • CHOWDHURY, Tarik
  • LIU, Shaoqing
  • YU, Bing
  • YUAN, Peng
  • OZBAYBURTLU, Hamdi
  • WANG, Hongbin
Agents
  • KREUZ, Georg
Priority Data
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) DEVICE AND METHOD FOR RECOGNIZING ACTIVITY IN VIDEOS
(FR) DISPOSITIF ET PROCÉDÉ DE RECONNAISSANCE D'ACTIVITÉ DANS DES VIDÉOS
Abstract
(EN)
Embodiments of the present invention relate to action recognition in videos. To this end, an embodiment of the invention includes a device and method for recognizing one or more activities in a video, wherein the device and method employ a deep-learning network. The device is configured to: receive the video; separate the video into an RGB part and an optical flow (OF) part; employ a spatial part of the deep-learning network to calculate a plurality of spatial label predictions based on the RGB part; employ a temporal part of the deep-learning network to calculate a plurality of temporal label predictions based on the OF part; and fuse the spatial and temporal label predictions to obtain a label associated with an activity in the video.
(FR)
Selon des modes de réalisation, la présente invention se rapporte à la reconnaissance d'action dans des vidéos. Pour cela, un mode de réalisation de l'invention concerne un dispositif et un procédé de reconnaissance d'une ou de plusieurs activités dans une vidéo, le dispositif et le procédé utilisant un réseau à apprentissage profond. Le dispositif est configuré pour : recevoir la vidéo ; séparer la vidéo en une partie RVB et une partie flux optique (OF) ; utiliser une partie spatiale du réseau à apprentissage profond pour calculer une pluralité de prédictions d'étiquette spatiales en fonction de la partie RVB ; utiliser une partie temporelle du réseau à apprentissage profond pour calculer une pluralité de prédictions d'étiquette temporelles en fonction de la partie OF ; et fusionner les prédictions d'étiquette spatiales et temporelles pour obtenir une étiquette associée à une activité dans la vidéo.
Latest bibliographic data on file with the International Bureau