Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020111505 - METHOD AND SYSTEM FOR GENERATING OBJECT GT INFORMATION FOR IMAGE MACHINE LEARNING

Document

명세서

발명의 명칭

기술분야

1  

배경기술

2   3   4  

발명의 상세한 설명

기술적 과제

5   6  

과제 해결 수단

7   8  

발명의 효과

9   10   11  

도면의 간단한 설명

12   13   14   15  

발명의 실시를 위한 최선의 형태

16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50   51   52   53   54   55  

청구범위

1   2   3   4   5   6   7  

도면

1   2   3   4  

명세서

발명의 명칭 : 영상 기계학습을 위한 객체 GT 정보 생성 방법 및 시스템

기술분야

[1]
본 발명은 이미지나 동영상의 기계학습에 사용되는 GT(Ground Truth) 정보 생성 방법에 관한 것으로서, 보다 자세히는 이미지나 동영상 프레임에 포함된 사람 및 자동차 등 객체에 대한 GT 정보를 생성하는 방법 및 시스템에 관한 것이다.

배경기술

[2]
영상에서의 객체 인식 및 추적과 관련해서는 물체(이하, 객체라 칭함)를 검출하는 기술이 기본인데, 종래의 객체 검출 방식은 오프라인 상태에서 수작업으로 객체의 GT(Ground Truth)를 추출하고 이를 학습시켜서 검출기를 생성하여 객체 검출을 수행하는 방식을 취한다.
[3]
이와 같이 GT의 추출과 GT 정보의 생성은 객체 인식에 있어서 기본이 되는 중요한 것인데, 종래의 GT 정보 생성 방법에서는 이미지나 동영상 프레임에 포함된 객체를 기술(Description)하기 위한 종합적인 표현 방법이 없었다. 이로 인해, 종래의 GT 정보 생성 방법에서는 영상 기계학습을 위해 필요로 하는 요소들을 자체적인 기준에 따라 기술하는 방법이 사용되었으며, 사용되는 요소들도 극히 제한적일 수 밖에 없다.
[4]
또한, 종래에는 기계학습을 위한 객체 GT 정보를 생성하기 위해서 사용자가 이미지나 동영상 프레임을 일일이 확인하며 수동으로 태깅(Tagging)하는 방법이 사용되었는데, 이러한 방법은 방대한 학습용 영상에 대한 GT 정보를 사용자가 수동으로 태깅하기 때문에 많은 인력과 시간이 소요되는 단점을 가진다.

발명의 상세한 설명

기술적 과제

[5]
본 발명의 GT 정보 생성 방법에서는 이미지나 비디오 프레임에 존재하는 사람 혹은 자동차 객체들의 종합적인 정보를 기술할 수 있도록 표준적인 GT 구성 요소 및 GT 기술 방법을 정의하고자 한다.
[6]
또한, GT 태깅을 자동화하여 효율적으로 GT 정보를 생성할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.

과제 해결 수단

[7]
본 발명에 따른 영상내 객체의 GT 정보 생성방법은 영상에 포함된 각 객체의 GT 정보를 소정의 GT 구조에 따라 자동으로 분석하여 생성하는 단계와, 생성된 상기 GT 정보를 수정하는 단계와, 수정완료된 GT 정보를 변환하여 메타데이터를 생성하는 단계를 포함하며, 객체별 GT 정보는 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성을 포함한다.
[8]
본 발명의 다른 실시예에 따른 GT 정보 생성 시스템은 영상을 저장하는 영상 저장부와, 상기 영상 저장부로부터 영상 파일을 입력받아, 각 프레임에 존재하는 객체별로 GT 정보를 분석하여 생성하는 GT 분석부와, 상기 GT 분석부가 생성한 GT 정보를 수정하는 GT 정보 수정부와, 수정 완료된 GT 정보를 변환하여 메타테이터를 생성하는 메타데이터 생성부를 포함한다.

발명의 효과

[9]
본 발명에 따르면, 정영상 이미지나 동영상 비디오 프레임에 존재하는 사람 혹은 자동차 등의 객체들의 종합적인 정보를 기술할 수 있도록 표준적인 GT 구성 요소 및 GT 기술 방법을 정의할 수 있다.
[10]
또한, GT 정보를 자동화하여 종래의 방법과 비교하여 보다 효율적으로 생성할 수 있다.
[11]
나아가, 이미지 및 비디오 프레임의 자동차 또는 사람 객체에 대한 표준적인 GT 요소를 정의함으로써, 이미지 및 비디오 기계학습을 위한 공통적인 표준 GT 생성 기술의 마련 및 활용이 가능하다.

도면의 간단한 설명

[12]
도 1은 본 발명의 일 실시예에 따른 GT 정보 생성 시스템의 구성도.
[13]
도 2는 본 발명의 일 실시예에 따른 GT 정보 생성 방법의 전체 순서도.
[14]
도 3은 도 2에 도시된 GT 분석 단계에 대한 상세 순서도.
[15]
도 4는 도 2에 도시된 GT 정보 수정 단계에 대한 상세 순서도.

발명의 실시를 위한 최선의 형태

[16]
본 발명의 목적 및 효과는 이상에서 언급한 것으로 제한되지 않으며, 본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
[17]
본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 이하의 각 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며 본 발명의 범위를 제한하고자 하는 것이 아니다.
[18]
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 또는 "구비"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...유닛", "...장치", "...디바이스", "...부" 또는 "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
[19]
한편, 본 발명의 각 실시예에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있으며, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
[20]
[21]
이하, 첨부도면을 참조하여 본 발명의 구성에 대하여 상세히 설명한다.
[22]
종래의 영상 객체에 대한 기계학습에 사용되는 GT 정보는 기계학습을 수행하는 주체에 따라 극히 제한적인 요소가 사용되었는데, 본 발명에서는 사람이나 자동차와 같은 영상 객체의 종합적인 정보를 태깅하고 이를 GT 메타데이터로 구성하는 방법을 사용한다. 본 발명에서 정의하는 영상 객체 GT 정보는 다음의 표 1과 같다.
[23]
[표1]
프레임 번호
객체의 개수
객체 ID (LIST)
객체의 종류
객체의 자세
객체의 상태
객체의 위치 정보
객체의 속성

[24]
프레임 번호는 정영상 이미지 입력의 경우에는 하나의 값을 가지며, 동영상 입력의 경우 각 프레임의 번호를 의미한다. 객체의 개수는 해당 이미지 혹은 프레임에서 검출되는 객체의 개수를 의미한다. 객체의 개수만큼 객체 ID 목록이 구성되며, 각 객체에 대해 객체 ID를 기준으로 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성 정보를 정의한다.
[25]
객체의 종류는 ‘사람’ 또는 ‘자동차’와 같이 구분되며, 객체의 자세는 이미지나 동영상 프레임에 표현되는 객체의 자세를 ‘앞’, ‘뒤’, ‘좌’, ‘우’, ‘앞-좌’, ‘앞-우’, ‘뒤-우’, ‘뒤-좌’와 같이 8방향으로 구분하여 표현한다.
[26]
객체의 상태는 객체의 전체가 이미지나 동영상 프레임에서 보이는지의 유무 혹은 다른 객체와의 겹침 유무에 따라 ‘전체’, ‘잘림’, ‘겹침’으로 구분한다.
[27]
객체의 위치 정보는 이미지나 동영상 프레임의 (0, 0)의 좌표를 기준으로 객체의 바운딩 박스(Bounding Box)가 표현되는 4개의 좌표를 표현한다.
[28]
객체의 속성 정보는 객체의 종류에 따라 다르게 구성되는데, 객체의 종류가 예컨대 사람인 경우에는 인종, 성별, 나이, 키, 상의 컬러, 하의 컬러, 안경 착용 여부로 구성되며, 객체의 종류가 자동차인 경우에는 자동차 색상, 번호판 번호, 자동차 제조사, 자동차 모델, 자동차 연식으로 구성될 수 있다.
[29]
이와 같이 본 발명에서는 이미지나 비디오 프레임에 존재하는 객체들의 종합적인 정보를 기술할 수 있도록 표준적인 GT 구성 요소를 정의하고, 이에 따른 GT 정보를 생성하고 관리하는 방법 및 시스템을 제공한다.
[30]
도 1은 본 발명의 일 실시예에 따른 GT 정보 생성 시스템의 구성도이다.
[31]
도시된 바와 같이, 시스템은 영상 저장부(100), GT 분석부(110), GT 정보 수정부(120), GT 메타데이터 생성부(130), 메타데이터 저장부(140)를 포함한다.
[32]
영상 저장부(100)는 GT 정보를 분석하고 생성할 객체를 담고 있는 이미지 또는 동영상 프레임(이하, '프레임'으로 총칭함)을 저장하는데, 하드디스크와 같은 비휘발성 메모리, RAM 등의 휘발성 메모리, 또는 스트리밍 데이터를 일시적으로 저장하는 버퍼 역할을 하는 레지스터 등으로 구현될 수 있다.
[33]
GT 분석부(110)는 영상 저장부(100)로부터 입력된 영상으로부터 프레임별로 자동으로 전술한 GT 구성 요소에 따른 각 정보, 즉 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성을 추출한다. 영상 내 객체의 GT 자동 분석을 위해서는 자체 개발한 알고리즘은 물론이고 오픈 소스나, 클라우드 API를 이용할 수 있다.
[34]
GT 정보 수정부(120)는 GT 분석부가 분석을 통하여 생성한 GT 정보를 사용자가 수정할 수 있도록 추출된 GT 정보를 목록으로 표현하여 사용자에게 표시한다. 바람직하게는 프레임 번호(정영상의 이미지 번호 또는 동영상의 프레임 번호)별로 전술한 GT 정보 구조를 가지는 객체 목록을 표시함으로써, 사용자가 검토할 수 있도록 한다.
[35]
사용자로부터 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성 정보에 대한 수정 입력을 받으면 이를 반영하여 GT 정보를 수정한다.
[36]
GT 메타데이터 생성부(130)는 수정이 완료된 GT 정보를 메타데이터로 변환하고, 메타데이터 저장부(140)는 메타데이터를 저장한다.
[37]
메타데이터 저장부(140)와 영상 저장부(100)는 논리적 관점에서 구분하여 설명한 것이고, 하드웨어적으로는 각각 별도의 기억장치일 수 있고 하나의 물리적 기억장치내에 구성될 수 있음은 물론이다.
[38]
[39]
이하, 도 2 내지 4를 참조하여 본 발명의 일 실시예에 따른 GT 정보 생성 방법을 구체적으로 설명한다.
[40]
프로그램이 시작된 후, GT 정보를 생성할 이미지 혹은 동영상 파일을 열고(S200), 동영상 파일의 GT 자동 분석을 수행한다(S210).
[41]
GT 자동 분석 단계를 보다 상세히 설명하면 다음과 같다.
[42]
맨 먼저, 입력되는 동영상을 프레임별로 구분하고 분석할 프레임에 프레임 번호를 부여한다(S211). 정영상 이미지의 경우 하나의 프레임만이 존재하므로, 프레임 분할을 수행하지 않는다.
[43]
다음으로, 분할된 프레임 영상에 대하여 GT 분석을 자동으로 분석한다(S214). 영상의 GT 자동 분석을 위해서는 개발된 알고리즘, 오픈 소스, 또는 클라우드 API가 사용될 수 있으며, 클라우드 API의 예로서, Sighthound Cloud API 가 있다.
[44]
분석되어 생성되는 GT는 전술한 표 1과 같이, 프레임 번호, 각 프레임내 객체의 갯수, 각 객체별 객체 ID, 객체 ID별로 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성을 포함하는 데이터 구조체로 구성함이 바람직하다.
[45]
분석되어 생성된 GT 정보는 수정을 위하여 저장한다(S216).
[46]
입력되는 영상이 동영상인 경우, 자동 GT 분석을 수행할 다음 프레임이 있는지를 판별하여(S218), 있으면 단계(S212)로 되돌아가고 더 이상 분석할 프레임이 없으면 분석 단계를 완료한다.
[47]
GT 자동 분석 단계(S210)이 완료되면, GT 정보 수정 단계(S220)를 진행한다.
[48]
GT 정보 수정 단계(S220)는 자동으로 분석된 GT 정보를 사용자가 수동으로 수정할 수 있도록 지원하는 단계이다.
[49]
이를 위하여, 정보 수정부(120)을 통해 우선 저장된 GT 정보를 목록으로 표현하여 사용자에게 표시한다(S222). 이 단계에서는 이미지나 비디오 프레임의 번호에 따라 객체 목록이 표현된다.
[50]
그 다음, 단계(S222)에서 표현된 객체 목록 중, 사용자가 정보 수정을 원하는 객체를 선택하면 그 선택 입력을 수신하고(S224), 선택된 객체를 수정 가능한 상태로 전환한다.
[51]
사용자가 선택된 객체의 GT 정보를 수정하는 입력을 수신하여 GT 정보를 수정한다(S226). 구체적으로 사용자는 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성 정보를 수정할 수 있고, 정보 수정부(120)는 이들 각 속성 정보에 대한 사용자의 수정 입력을 받아서 GT 정보를 수정 갱신한다.
[52]
후속의 단계(S218)에서 이미지 혹은 동영상의 모든 프레임에 대해 GT 정보 수정을 완료했는지를 판단하여, 아직 수정 검토가 안된 프레임이 있으면 단계(S224)로 되돌아가고, 모든 프레임이 수정 검토가 되었으면 GT 정보 수정을 완료한다.
[53]
분석 및 수정이 완료되면, GT 정보를 메타데이터로 변환한다(S230). 변환생성된 메타데이터는 적절한 저장소(메타데이터 저장부; 140)에 저장한다. 메타데이터로는 XML, EXCEL, JSON, TEXT 등이 포맷이 사용될 수 있다.
[54]
이상, 본 발명의 바람직한 실시예에 대하여 개시하였으며, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명할 것이며, 따라서 본 발명의 권리범위의 이하의 특허청구범위의 기재에 의하여 정하여져야 할 것이다.
[55]

청구범위

[청구항 1]
영상에 포함된 각 객체의 GT 정보를 소정의 GT 구조에 따라 자동으로 분석하여 생성하는 단계와, 생성된 상기 GT 정보를 수정하는 단계와, 수정완료된 GT 정보를 변환하여 메타데이터를 생성하는 단계 를 포함하는 영상내 객체의 GT 정보 생성방법.
[청구항 2]
제1항에 있어서, 상기 생성하는 단계는 각 프레임 - 정영상 이미지 또는 동영상의 각 프레임을 총칭함, 이하 같음 - 에 포함된 객체별로 분석하여 객체의 종류, 객체의 자세, 객체의 상태, 객체의 위치 정보, 객체의 속성을 포함하는 GT 정보를 생성하는 것인 영상내 객체의 GT 정보 생성방법.
[청구항 3]
제1항에 있어서, 상기 수정하는 단계는 각 프레임별로, 생성된 상기 객체의 GT 정보를 목록으로 표현하여 사용자에게 제시하는 단계와, 사용자의 선택에 따라 선택된 GT 정보에 대한 사용자의 수정 입력을 수신하는 단계와, 상기 수정 입력에 따라 GT 정보를 수정 갱신하는 단계를 포함하되, 모든 프레임 내의 객체에 대한 수정 검토가 완료될 때까지 전술한 3개 단계를 반복하는 것인 영상내 객체의 GT 정보 생성방법.
[청구항 4]
제1항에 있어서, 메타데이터를 생성하는 단계는 수정이 완료된 상기 GT 정보를 XML, EXCEL, JSON, TEXT 중 어느 하나의 포맷으로 변환하는 단계를 포함하는 것인 영상내 객체의 GT 정보 생성방법.
[청구항 5]
영상을 저장하는 영상 저장부와, 상기 영상 저장부로부터 영상 파일을 입력받아, 각 프레임에 존재하는 객체별로 GT 정보를 분석하여 생성하는 GT 분석부와, 상기 GT 분석부가 생성한 GT 정보를 수정하는 GT 정보 수정부와, 수정 완료된 GT 정보를 변환하여 메타테이터를 생성하는 메타데이터 생성부를 포함하는 영상내 객체의 GT 정보 생성 시스템.
[청구항 6]
제5항에 있어서, 상기 GT 분석부는 자체 개발 분석 알고리즘, 오픈 소스 및 클라우드 AIP 중 적어도 하나를 내장하여 분석을 수행하는 것인 영상내 객체의 GT 정보 생성 시스템.
[청구항 7]
제5항에 있어서, 상기 메타데이터를 저장하는 메타데이터 저장부를 더 포함하는 영상내 객체의 GT 정보 생성 시스템.

도면

[도1]

[도2]

[도3]

[도4]