Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020117028 - QUERY RESPONSE DEVICE AND METHOD

Publication Number WO/2020/117028
Publication Date 11.06.2020
International Application No. PCT/KR2019/017311
International Filing Date 09.12.2019
IPC
G06F 16/783 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
783using metadata automatically derived from the content
G06F 16/432 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
40of multimedia data, e.g. slideshows comprising image and additional audio data
43Querying
432Query formulation
G06F 16/73 2019.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
16Information retrieval; Database structures therefor; File system structures therefor
70of video data
73Querying
G06N 3/08 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
Applicants
  • 서울대학교 산학협력단 SEOUL NATIONAL UNIVERSITY R&DB FOUNDATION [KR]/[KR]
Inventors
  • 장병탁 ZHANG, Byoung-Tak
  • 최성호 CHOI, Seong-Ho
Agents
  • 특허법인 아이스퀘어 ISQUARE PATENT & LAW FIRM
Priority Data
10-2018-015735607.12.2018KR
10-2019-016278809.12.2019KR
Publication Language Korean (KO)
Filing Language Korean (KO)
Designated States
Title
(EN) QUERY RESPONSE DEVICE AND METHOD
(FR) DISPOSITIF ET PROCÉDÉ DE RÉPONSE À UNE INTERROGATION
(KO) 질의 응답 장치 및 방법
Abstract
(EN)
A query response method performed by a query response device comprises the steps of: classifying an image frame, audio data, and subtitle data that are included in video data of a data set in one shot unit, on the basis of one same subtitle; extracting a shot feature vector by calculating a feature vector of each of an image frame, audio data, and subtitle data that are included in a shot; extracting, from a pair of query responses included in the data set, a feature vector of question data and a feature vector of each of a plurality of pieces of option data corresponding to the question data; calculating a video feature vector by inputting the shot feature vector to a neural network including a plurality of layers, assigning an attention weight calculated on the basis of the question data to an output vector of each of the layers, and then summing results; and selecting a final answer from among the plurality of pieces of option data, on the basis of a similarity between the video feature vector and an option feature vector.
(FR)
Selon la présente invention, un procédé de réponse à une interrogation mis en œuvre par un dispositif de réponse à une interrogation comprend les étapes consistant : à classifier une trame d'image, des données audio et des données de sous-titre qui sont comprises dans des données vidéo d'un ensemble de données dans une unité de plan, sur la base d'un même sous-titre ; à extraire un vecteur de caractéristique de plan par calcul d'un vecteur de caractéristique de chacune d'une trame d'image, de données audio et de données de sous-titre qui sont comprises dans un plan ; à extraire, d'une paire de réponses à une interrogation comprises dans l'ensemble de données, un vecteur de caractéristique de données de question et un vecteur de caractéristique de chacun d'une pluralité d'éléments de données d'options correspondant aux données de question ; à calculer un vecteur de caractéristique vidéo par entrée du vecteur de caractéristique de plan sur un réseau neuronal comprenant une pluralité de couches, à attribuer un poids d'attention calculé sur la base des données de question à un vecteur de sortie de chacune des couches, puis à additionner les résultats ; et à sélectionner une réponse finale parmi la pluralité d'éléments de données d'option, sur la base d'une similarité entre le vecteur de caractéristique vidéo et un vecteur de caractéristique d'option.
(KO)
질의 응답 장치에 의해 수행되는 질의 응답 방법은 데이터 세트의 비디오 데이터에 포함된 이미지 프레임, 오디오 데이터, 자막 데이터를, 동일한 하나의 자막을 기준으로 한 샷 단위로 구분하는 단계; 샷에 포함된 이미지 프레임, 오디오 데이터, 자막 데이터 각각의 특징벡터를 연산하여 샷 특징벡터를 추출하는 단계; 상기 데이터 세트에 포함된 질의응답 쌍에서 질문 데이터와 상기 질문 데이터에 대응하는 복수의 선택지 데이터 각각의 특징벡터를 추출하는 단계; 복수의 계층의 신경망에 상기 샷 특징벡터를 입력한 후, 각 계층의 출력벡터에 상기 질문 데이터에 기초하여 연산된 주의 가중치를 부여하여 합산함으로써 비디오 특징벡터를 산출하는 단계; 그리고 상기 비디오 특징벡터와 선택지 특징벡터 사이의 유사도에 기초하여 상기 복수의 선택지 데이터 중 최종 답안을 선택하는 단계를 포함한다.
Latest bibliographic data on file with the International Bureau