Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020159241 - PROCÉDÉ PERMETTANT DE TRAITER UNE IMAGE ET APPAREIL ASSOCIÉ

Document

명세서

발명의 명칭

기술분야

1  

배경기술

2   3   4   5   6   7  

발명의 상세한 설명

기술적 과제

8   9   10  

과제 해결 수단

11   12   13  

도면의 간단한 설명

14   15   16   17   18   19   20   21   22   23   24  

발명의 실시를 위한 형태

25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50   51   52   53   54   55   56   57   58   59   60   61   62   63   64   65   66   67   68   69   70   71   72   73   74   75   76   77   78   79   80   81   82   83   84   85   86   87   88   89   90   91   92   93   94   95   96   97   98   99   100   101   102   103   104   105   106   107   108   109   110   111   112   113   114   115   116   117   118   119   120   121   122   123   124   125   126   127  

청구범위

1   2   3   4   5   6   7   8   9   10   11   12   13   14   15  

도면

1   2   3   4   5   6   7   8   9   10   11  

명세서

발명의 명칭 : 이미지를 처리하기 위한 방법 및 그에 따른 장치

기술분야

[1]
본 개시는 이미지를 처리하기 위한 방법 및 그에 따른 장치에 관한 것으로서, 보다 상세하게는 대상 객체가 포함된 이미지를 표본 구조로 변환하여 대상 객체의 얼굴을 추출하기 위한 방법 및 그에 따른 장치에 관한 것이다.

배경기술

[2]
인공 지능(Artificial Intelligence, AI) 시스템은 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.
[3]
인공 지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
[4]
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
[5]
인공 지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
[6]
한편, 멀티미디어 기술 및 네트워크 기술이 발전함에 따라, 사용자는 다양한 디바이스를 통하여 이미지를 획득하고, 획득된 이미지를 처리하고 이용할 수 있게 되었다. 획득된 이미지들은 얼굴 인식 기술에 이용될 수 있으며, 이미지로부터 얼굴을 인식하는 기술은 다양한 분야에서 활용될 수 있다.
[7]
얼굴 인식 기술에서, 이미지에 포함된 대상 객체의 얼굴은 대상 객체의 특징 점들이 라벨링된 소정 개수 이상의 이미지 데이터로부터 추출되도록 학습될 수 있다. 이 경우, 대상 객체의 얼굴을 인식하기 위한 이미지 데이터는 소정 개수 이상이 필요하다. 또한, 학습된 대상 객체와 상이한 대상 객체의 얼굴을 인식하기 위해서는 상이한 대상 객체의 얼굴이 포함된 소정 개수 이상의 이미지 데이터가 필요하다. 따라서, 얼굴 인식 속도 향상 및 데이터 효율성을 증가시키기 위해 소정 개수 이하의 이미지 데이터들로부터 대상 객체의 얼굴을 인식하기 위한 기술이 요구되고 있다.

발명의 상세한 설명

기술적 과제

[8]
일부 실시예는, 이미지에 포함된 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법 및 그에 따른 장치의 제공을 목적으로 한다.
[9]
또한, 일부 실시예는, 대상 객체의 눈 및 코에 의해 형성되는 구조에 기초하여, 이미지들을 공통된 표본 구조로 변형하도록 이미지를 처리하는 방법 및 그에 따른 장치를 제공할 수 있다.
[10]
또한, 일부 실시예는, 대상 객체가 포함된 학습 이미지에 기초하여 상이한 대상 객체가 포함된 타겟 이미지로부터 얼굴을 추출하기 위해 타겟 이미지를 처리하는 방법 및 그에 따른 장치를 제공할 수 있다.

과제 해결 수단

[11]
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것인, 동작; 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하는 동작; 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하는 동작; 및 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 상기 학습 이미지에 기초하여 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는 동작;을 포함하는, 전자 장치가 이미지를 처리하는 방법을 제공할 수 있다.
[12]
또한, 본 개시의 제2 측면은, 통신부; 적어도 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 적어도 하나 이상의 인스트럭션을 실행함으로써 상기 전자 장치를 제어하는 프로세서;를 포함하며, 상기 프로세서는, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것이고, 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하고, 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하고, 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 학습 이미지에 기초하여, 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는, 전자 장치를 제공할 수 있다.
[13]
또한, 본 개시의 제3 측면은, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것인, 동작; 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하는 동작; 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하는 동작; 및 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 상기 학습 이미지에 기초하여 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는 동작;을 수행하도록 하는 프로그램이 저장된 기록 매체를 포함하는 컴퓨터 프로그램을 제공할 수 있다.

도면의 간단한 설명

[14]
도 1은 일부 실시예에 따른 이미지를 처리하기 위한 시스템의 개요도이다.
[15]
도 2는 일부 실시예에 따른 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하는 방법의 개요도이다.
[16]
도 3은 일부 실시예에 따른 전자 장치가 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.
[17]
도 4는 일부 실시예에 따른 제1 인공 지능 모델을 나타내는 도면이다.
[18]
도 5는 일부 실시예에 따른 제2 인공 지능 모델을 나타내는 도면이다.
[19]
도 6은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하는 시스템의 개요도이다.
[20]
도 7은 일부 실시예에 따른 전자 장치가 타겟 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.
[21]
도 8은 일부 실시예에 따른 타겟 이미지를 인공 지능 학습 모델에 적용하여 대상 객체의 얼굴을 추출하는 방법을 설명하는 도면이다.
[22]
도 9는 일부 실시예에 따른 전자 장치의 블록도이다.
[23]
도 10은 일부 실시예에 따른 프로세서의 블록도이다.
[24]
도 11은 일부 실시예에 따른 디바이스 및 전자 장치가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

발명의 실시를 위한 형태

[25]
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
[26]
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
[27]
본 명세서에서, 대상 객체는 사람뿐만 아니라, 동물, 캐릭터, 이모티콘 등과 같이 얼굴을 포함하는 다양한 객체의 종류를 지칭할 수 있다. 예를 들어, 개와 고양이는 서로 다른 대상 객체이며, 개 이모티콘 및 고양이 이모티콘도 서로 다른 대상 객체일 수 있다.
[28]
본 개시의 일 실시예에 따르면, 소정 이미지로부터 대상 객체의 얼굴을 추출하기 위한 인공 지능 모델이 제공된다. 이 때, 인공 지능 모델을 생성하기 위해 이용되는 복수 종류의 대상 객체들에 각각 대응되는 이미지를 '학습 이미지'로 지칭한다. 또한, 기학습된 이미지에 포함된 대상 객체와 상이한 대상 객체가 포함된 이미지로부터 상이한 대상 객체의 얼굴을 추출하기 위해, 생성된 인공 지능 모델에 적용하는 이미지를 '타겟 이미지'로 지칭한다.
[29]
본 명세서에서, 인공 지능 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델일 수 있다.
[30]
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
[31]
도 1은 일부 실시예에 따른 이미지를 처리하기 위한 시스템의 개요도이다.
[32]
도 1을 참조하면, 전자 장치(1000)는 이미지에 포함된 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하기 위한 시스템을 제공할 수 있다. 이 때, 전자 장치(1000)는 서버일 수 있으나, 이에 제한되는 것은 아니다.
[33]
전자 장치(1000)는 복수 종류의 대상 객체들에 각각 대응되는 복수의 학습 이미지 세트들을 이용하여, 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성할 수 있다. 구체적으로, 전자 장치(1000)는 기설정된 구조를 형성하는 특징점들이 학습 이미지에 레이블링된 것에 기초하여, 전자 장치(1000)는 레블링된 특징점들에 기초한 표본 구조를 결정할 수 있다.
[34]
구체적으로, 전자 장치(1000)는 복수 종류의 대상 객체들의 얼굴 각각에 공통적으로 눈 및 코가 포함되며, 대상 객체의 눈 및 코가 삼각형의 구조를 형성하는 것에 기초하여, 표본 구조를 결정하고 결정된 표본 구조를 검증하기 위한 인공 지능 모델을 생성할 수 있다. 즉, 전자 장치(1000)는 복수 종류의 대상 객체들에 대응되는 학습 이미지를 이용하여, 대상 객체의 종류와 무관한 표본 구조를 결정할 수 있다. 전자 장치(1000)는 표본 구조에 기초하여 학습 이미지를 변형함으로써, 대상 객체의 얼굴을 식별할 수 있다.
[35]
또한, 전자 장치(1000)는 변형된 학습 이미지로부터 학습 이미지를 복원하고, 복원된 학습 이미지와 변형되기 이전의 학습 이미지를 비교하여, 생성된 인공 지능 모델을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 학습 이미지를 복원할 때 복원된 학습 이미지 및 학습 이미지 간 차이가 임계 값 이상인지 여부에 기초하여, 표본 구조가 잘못 결정되었는지 여부를 판단할 수 있다.
[36]
또한, 전자 장치(1000)는 인공 지능 모델을 생성하기 위해 이용된 학습 이미지 세트에 포함된 복수 종류의 대상 객체들과 상이한 종류의 대상 객체에 대응되는 타겟 이미지를 외부 디바이스(미도시)로부터 수신할 수 있다. 전자 장치(1000)는 타겟 이미지를 인공 지능 모델에 입력함으로써, 타겟 이미지를 표본 구조로 변형할 수 있고, 변형된 타겟 이미지로부터 상이한 대상 객체의 얼굴을 추출하고, 추출된 얼굴을 검증할 수 있다.
[37]
도 2는 일부 실시예에 따른 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하는 시스템(100)의 개요도이다.
[38]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하기 위해 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트(110)들을 획득할 수 있다. 도 2를 참조하면, 전자 장치(1000)는 돼지, 개, 고양이에 각각 대응되는 돼지 이미지 세트(111), 개 이미지 세트(112), 고양이 이미지 세트(113) 등을 학습 이미지 세트(110)로 획득할 수 있다. 이하에서는 설명의 편의 상, 획득되는 학습 이미지 세트의 대상 객체가 '돼지'인 경우에 대해서 설명한다. 구체적으로, 돼지 이미지 세트(111) 내의 제1 학습 이미지(150)을 기준으로 설명되나, 돼지 이미지 세트(111) 내의 제1 학습 이미지(150)와 상이한 돼지 학습 이미지뿐만 아니라, 후술하는 동작들이 대상 객체의 종류와 무관하게 전체 학습 이미지에 적용될 수 있다.
[39]
학습 이미지 세트(110)들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것일 수 있다. 구체적으로, 복수 종류의 대상 객체들에 각각 대응되는 학습 이미지는 대상 객체의 왼쪽 눈, 오른쪽 눈, 및 코에 대응되는 특징점들이 레이블링된 것일 수 있으며, 기설정된 구조는 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조일 수 있다. 예를 들어, 돼지에 대응되는 제1 학습이미지(150)는 왼쪽 눈, 오른쪽 눈, 및 코에 대응하여 삼각형 구조를 형성하는 특징점들이 레이블링된 것일 수 있다.
[40]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 복수의 학습 이미지 세트(110)들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조(120)를 결정하기 위한 제1 인공 지능 모델을 생성할 수 있다. 구체적으로, 표본 구조(120)는 레이블링된 특징점들 및 STN(Spatial Transform Network) 함수에 기초하여 결정될 수 있다. STN 함수는 입력 이미지를 변환 파라미터(θ)에 기초하여 공간 변환할 수 있다. 본 개시의 일 실시예에 따르면, STN 함수는 [수학식 1]에 대응되며, 전자 장치(1000)는 [수학식 1]을 이용하여 학습 이미지 내의 레이블링된 특징점들에 기초한 표본 구조(120)를 결정할 수 있다.
[41]
[수학식 1]
[42]
[43]
[수학식 1]을 참조하면, 입력 학습 이미지 내의 레이블링된 특징점들을 나타낼 수 있다. 예를 들어 입력 는 학습 이미지 내의 레이블링된 특징점들의 좌표 또는 벡터일 수 있으나 이에 제한되는 것은 아니고, 레이블링된 특징점들을 나타낼 수 있는 형태이면 어느 것이든 가능하다. 전자 장치(1000)는 입력 의 평균 값에 기초하여 표본 구조(120)를 결정할 수 있다. 구체적으로, 전자 장치(1000)는 복수의 학습 이미지 세트(110)들 내의 학습 이미지에 포함된 특징점들의 표본 구조(120)를 STN 함수의 출력 값 에 기초하여 결정할 수 있다.
[44]
한편, 전자 장치(1000)는 [수학식 1]에 의해 결정된 표본 구조(120) 및 STN 함수(g STN)에 학습 이미지의 레이블링된 특징점에 대응되는 가 입력될 때 출력되는 구조 간 차이가 소정 임계 값 이하가 되도록 표본 구조(120)를 학습할 수 있다. 구체적으로, 전자 장치(1000)는 하기 [수학식 2]를 이용하여, STN 함수에 학습 이미지의 레이블링된 특징점들에 대응되는 가 입력될 때 출력되는 구조 및 표본 구조(120) 및 간 차이 를 계산하고, MAE(Mean Absolute Error) 값이 최소가 되도록 학습(learning)할 수 있다.
[45]
[수학식 2]
[46]
[47]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 STN 함수를 이용하여 결정된 표본 구조(120)에 기초하여 제1 학습 이미지(150)를 변형할 수 있다. 전자 장치(1000)는 변형된 제1 학습 이미지(151)로부터 대상 객체인 돼지의 얼굴을 식별할 수 있다. 설명의 편의상 변형된 제1 학습 이미지(151)를 이미지의 형태로 표현했으나, 실제 획득되는 것은 변형된 제1 학습 이미지(151)의 좌표, 벡터 또는 함수일 수 있다.
[48]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 제1 학습 이미지(151)로부터 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150)를 비교하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(1000)는 표본 구조(120)에 기초하여 변형된 제1 학습 이미지(151)를 복원하고, 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150) 간 차이에 기초하여, 제1 인공 지능 모델을 검증할 수 있다. 이 때, 전자 장치(1000)는 복원된 제1 학습 이미지(152) 및 제1 학습 이미지(150) 간 차이를 획득하기 위해 하기 [수학식 3]를 이용할 수 있다.
[49]
[수학식 3]
[50]
[51]
[수학식 3]을 참조하면, 전자 장치(1000)는 복원 함수(g reg) 및 STN 역함수(g STN -1)를 이용하여 변형된 제1 학습 이미지(151)를 복원할 수 있다. 또한, 전자 장치(1000)는 복원 함수(g reg) 및 STN 역함수(g STN -1)를 이용하여 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150) 간 차이를 계산할 수 있다. 이 때, 전자 장치(1000)는 계산된 값이 소정 임계 값 이하인지 여부에 기초하여 제1 인공 지능 모델을 검증할 수 있다. 제1 인공 지능 모델을 검증하는 방법에 대해서는 후술하도록 한다.
[52]
제1 학습 이미지(150)가 STN 함수(g STN)에 의해 변형된 후, 변형된 제1 학습 이미지(151)가 복원 함수(g reg)를 통과하면 전자 장치(1000)는 눈 및 코에 대응되는 특징점들의 좌표를 추론할 수 있다. 또한, 전자 장치(1000)는 추론된 눈 및 코에 대응되는 특징점들을 STN 역함수(g STN -1)를 이용하여 복원시킨 후 레이블링된 학습 이미지의 특징점에 대응되는 와 비교할 수 있다.
[53]
도 3은 일부 실시예에 따른 전자 장치가 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.
[54]
동작 S310에서, 전자 장치(1000)는 복수 종류의 대상 객체들에 각각 대응되는 복수의 학습 이미지 세트들을 획득할 수 있다. 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것일 수 있다. 기설정된 구조는 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조일 수 있다.
[55]
동작 S320에서, 전자 장치(1000)는 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성할 수 있다. 구체적으로, 전자 장치(1000)는 레이블링된 특징점들 및 STN 함수에 기초하여 표본 구조를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 전술한 [수학식 1] 및 [수학식 2]를 이용하여, 학습 이미지 내의 특징 점들의 평균 값에 기초하여 표본 구조를 결정하고, 입력되는 특징 점들 및 결정된 표본 구조 간 차이가 최소가 되도록 표본 구조를 학습할 수 있다.
[56]
동작 S330에서, 전자 장치(1000)는 표본 구조에 기초하여 변형된 학습 이미지로부터 얼굴을 식별할 수 있다. 예를 들어, 전자 장치(1000)는 표본 구조에 기초하여 학습 이미지를 변형했을 때, 표본 구조에 대응되는 점들을 대상 객체의 눈 및 코로 판단하여 대상 객체의 얼굴을 식별할 수 있다.
[57]
동작 S340에서, 전자 장치(1000)는 변형된 학습 이미지로부터 복원된 이미지 및 변형되기 이전의 학습 이미지에 기초하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로 전자 장치(1000)는 변형된 학습 이미지를 복원하고, 복원된 이미지 및 학습 이미지 간 차이에 기초하여 제1 인공 지능 모델을 검증할 수 있다. 또한, 전자 장치(1000)는 제2 인공 지능 모델을 이용하여 상기 제1 인공 지능 모델을 검증하고, 검증 결과에 기초하여, 표본 구조를 변경하도록 제1 인공 지능 모델을 업데이트 할 수도 있다. 예를 들어, 전자 장치(1000)는 검증 결과에 기초하여 복원된 이미지 및 학습 이미지 간 차이가 기설정된 임계 값 이하가 되도록 제1 인공 지능 모델을 학습시킬 수 있다.
[58]
도 4는 일부 실시예에 따른 제1 인공 지능 모델을 나타내는 도면이다.
[59]
제1 인공 지능 모델은 학습 이미지 내의 레이블링된 특징 점들이 형성하는 표본 구조에 기초하여 대상 객체의 얼굴을 인식하기 위한 학습 모델이다. 구체적으로, 도 4를 참조하면, 전자 장치(1000)는 학습 이미지가 제1 인공 지능 모델에 입력되면, STN 함수에 기초하여 학습 이미지를 표본 구조로 변형할 수 있다. 또한, 전자 장치(1000)는 변형된 학습 이미지로부터 표본 구조에 대응되는 특징점들을 디텍터(detector)에 의해 추출함으로써, 학습 이미지에 포함된 얼굴을 인식할 수 있다. 설명의 편의 상, STN 및 디텍터의 구조를 분리하여 도시하였으나, 전자 장치(1000)는 학습 이미지를 STN 변환할 때에 STN 변환된 학습 이미지의 표본 구조에 대응되는 점들에 기초하여 대상 객체의 얼굴을 인식할 수도 있다.
[60]
도 5는 일부 실시예에 따른 제2 인공 지능 모델을 나타내는 도면이다.
[61]
제2 인공 지능 모델은 제1 인공 지능 모델을 검증하기 위한 학습 모델이다. 구체적으로, 도 5를 참조하면, 전자 장치(1000)는 변형된 학습 이미지가 제2 인공 지능 모델에 입력되면 변형된 학습 이미지를 복원부(regressor)에서 복원하고, 복원된 이미지 및 변형 전 학습 이미지를 비교함으로써 제1 인공 지능 모델을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 복원 함수 및 STN 역함수에 기초하여 변형된 학습 이미지를 복원할 수 있으며, 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하인 경우, 제1 인공 지능 모델이 검증된 것으로 판단할 수 있다.
[62]
한편, 전자 장치(1000)는 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이상인 경우, 제1 인공 지능 모델이 검증되지 못한 것으로 판단할 수 있다. 예를 들어, 제1 인공 지능 모델이 검증되지 못한 것으로 판단되는 경우로는 제1 인공 지능 모델에 의해 결정된 표본 구조에 오류가 있는 경우 또는 결정된 표본 구조에 오류가 없으나 학습 이미지가 잘못 변형된 경우일 수 있으나, 이에 제한되는 것은 아니다. 즉, 전자 장치(1000)는 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하인지 여부에 기초하여, 제1 인공 지능 모델을 검증할 수 있고, 검증 결과에 기초하여 결정된 표본 구조를 변경하거나 학습 이미지를 표본 구조에 기초하여 다시 변형함으로써 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하가 되도록 할 수 있다. 예를 들어, 전자 장치(1000)는 제2 인공 지능 모델을 이용하여 제1 인공 지능 모델을 검증하고, 검증 결과에 기초하여, 표본 구조를 변경하도록 제1 인공 지능 모델을 업데이트 할 수 있다.
[63]
도 6은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하는 시스템의 개요도이다.
[64]
도 6을 참조하면, 전자 장치(1000)는 인공 지능 모델을 생성하기 위한 학습 이미지 세트에 포함된 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지(250)를 획득할 수 있다. 구체적으로, 전자 장치(1000)는 제1 인공 지능 모델에 의해 결정된 표본 구조를 이용함으로써, 타겟 이미지(250)에 대해 소수 시도 학습(few-shot adaptation)을 적용할 수 있다. 이에 따라, 전자 장치(1000)가 학습 이미지의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지(250)로부터 얼굴을 추출하는 경우 필요한 타겟 이미지(250)의 개수는 소정 개수 이하일 수 있다. 즉, 전자 장치(1000)는 소정 개수 이하의 타겟 이미지(250)를 이용하여 학습 이미지에 포함된 대상 객체들과 상이한 종류의 대상 객체의 얼굴을 추출할 수 있다. 예를 들어, 학습 이미지가 대상 객체 '곰'을 포함하지 않더라도, 전자 장치(1000)는 돼지, 개, 고양이 등과 같이 상이한 대상 객체가 포함된 학습 이미지를 이용하여 생성된 인공 지능 모델에 타겟 이미지(250)를 적용함으로써 대상 객체 '곰'의 얼굴을 추출할 수 있다.
[65]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 획득된 타겟 이미지(250)를 제1 인공 지능 모델에 입력함으로써, 타겟 이미지 내의 특징 점들이 결정된 표본 구조를 형성하도록 타겟 이미지를 변형할 수 있다.
[66]
또한, 전자 장치(1000)는 변형된 타겟 이미지(251)에 기초하여 대상 객체의 얼굴을 추출할 수 있다. 구체적으로, 변형된 타겟 이미지(251) 내의 특징점들은, 타겟 이미지(250) 내의 대상 객체로부터 추론된 것일수 있다. 예를 들어, 전자 장치(1000)는 변형된 타겟 이미지(251) 내의 표본 구조에 대응되는 특징 점들을 대상 객체의 눈 및 코로 판단함으로써, 대상 객체의 얼굴을 추출할 수 있다.
[67]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지(251) 및 변형 전 타겟 이미지(250)를 제2 인공 지능 모델에 입력함으로써, 제1 인공 지능 모델에 의해 추출된 얼굴을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지(251)로부터 복원된 타겟 이미지(252) 및 변형 전 타겟 이미지(250)를 비교하여 추출된 얼굴을 검증하기 위한 제2 인공 지능 모델에 변형된 타겟 이미지(251)를 입력할 수 있다.
[68]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지(251)를 제2 인공 지능 모델에 입력함으로써, 변형된 타겟 이미지(251)를 복원할 수 있고, 복원된 타겟 이미지(252)로부터 대상 객체의 얼굴을 추출할 수 있다. 이 때, 전자 장치(1000)는 복원된 타겟 이미지(252) 및 타겟 이미지(250)를 비교함으로써, 복원된 타겟 이미지(252)로부터 추출된 얼굴을 검증할 수 있다. 예를 들어, 전자 장치(1000)는 복원된 타겟 이미지(252) 및 타겟 이미지(250) 간 차이가 소정 임계 값 이하인 경우, 복원된 타겟 이미지(252)로부터 추출된 얼굴을 대상 객체의 얼굴로 결정할 수 있다.
[69]
도 7은 일부 실시예에 따른 전자 장치가 타겟 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.
[70]
동작 S710에서, 전자 장치(1000)는 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득할 수 있다. 전자 장치(1000)는 학습 이미지에 포함된 복수의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지 내의 대상 객체의 얼굴을 추출할 수 있다.
[71]
동작 S720에서, 전자 장치(1000)는 타겟 이미지를 생성된 제1 인공 지능 모델에 적용함으로써, 타겟 이미지 내의 특징점들이 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상이한 종류의 대상 객체의 얼굴을 추출할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지 내의 특징 점들 중 표본 구조에 대응되는 특징 점들에 기초하여 상이한 대상 객체의 얼굴을 결정할 수 있다.
[72]
동작 S730에서, 전자 장치(1000)는 제2 인공 지능 모델에 변형 전의 타겟 이미지 및 상기 변형된 타겟 이미지를 입력함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지를 복원하고, 복원된 타겟 이미지로부터 상이한 종류의 대상 객체의 얼굴을 추출하며, 복원된 타겟 이미지 및 변형 전의 타겟 이미지를 비교함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다.
[73]
도 8은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 대상 객체의 얼굴을 추출하는 방법을 설명하는 도면이다.
[74]
도 8을 참조하면, 전자 장치(1000)는 학습 이미지에 기초하여 기생성된 제1 인공 지능 모델에 타겟 이미지를 입력할 수 있다. 구체적으로, 전자 장치(1000)는 타겟 이미지가 제1 인공 지능 모델에 입력되면, STN 함수를 이용하여 입력된 타겟 이미지를 변형하고, 변형된 타겟 이미지에 기초하여 타겟 이미지에 포함된 대상 객체의 얼굴을 디텍터(Detector)에 의해 추출할 수 있다. 본 개시에서는, 설명의 편의상 STN 및 Detector를 분리하여 도시하였으나, STN 함수 적용 시에 대상 객체의 얼굴에 대응되는 특징 점들이 추출될 수 있음은 물론이다. 한편, 전자 장치(1000)는 타겟 이미지로부터 추출된 특징 점들에 기초하여 제1 인공 지능 모델을 업데이트할 수도 있다. 예를 들어, 전자 장치(1000)는 타겟 이미지 내 특징 점들이 형성하는 구조에 기초하여 결정된 표본 구조를 업데이트 할 수도 있다.
[75]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지 및 변형 전 타겟 이미지를 제2 인공 지능 모델에 입력할 수 있다. 구체적으로, 전자 장치(1000)는 복원부(regressor)에서 변형된 타겟 이미지를 복원할 수 있다. 전자 장치(1000)는 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이가 소정 임계 값 이하인지 여부에 기초하여 제1 인공 지능 모델에 기초하여 타겟 이미지로부터 추출된 대상 객체의 얼굴을 검증할 수 있다. 만약, 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이가 소정 임계 값 이상인 경우, 전자 장치(1000)는 기생성된 제1 인공 지능 모델을 변경할 수도 있다. 예를 들어, 전자 장치(1000)는 결정된 표본 구조를 획득된 타겟 이미지 내의 특징 점들에 기초하여 변경하거나, 결정된 표본 구조에 기초하여 타겟 이미지의 변형을 다시 수행할 수도 있다.
[76]
도 9는 일부 실시예에 따른 전자 장치의 블록도이다.
[77]
도 9에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 통신부(1500), 적어도 하나 이상의 인스트럭션을 저장하는 메모리(1700), 및 적어도 하나 이상의 인스트럭션을 실행함으로써 전자 장치(1000)를 제어하는 프로세서(1300)를 포함할 수 있다. 그러나, 도 9에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 9에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 9에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
[78]
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 본 개시에서의 전자 장치(1000)의 동작을 제어할 수 있다.
[79]
구체적으로, 프로세서(1300)는, 통신부(1500)를 통하여 디바이스(2000)로부터 이미지를 수신할 수 있다. 예를 들어, 프로세서(1300)는, 디바이스(2000)로부터 수신된 이미지를 처리하여 수신된 이미지에 포함된 대상 객체의 얼굴을 추출하도록 제어할 수 있다.
[80]
본 개시의 일 실시예에 따르면, 프로세서(1300)는 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것이고, 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하고, 표본 구조에 기초하여 변형된 학습 이미지로부터 얼굴을 식별하고, 변형된 학습 이미지로부터 복원된 이미지 및 변형되기 이전의 학습 이미지에 기초하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다.
[81]
프로세서(1300)는 레이블링된 특징점들 및 STN 함수에 기초하여 표본구조를 결정할 수 있다. 또한, 프로세서(1300)는 학습 이미지 내의 특징점들이 표본 구조를 형성하도록 학습 이미지를 변형함으로써, 변형된 학습 이미지를 생성할 수 있다.
[82]
본 개시의 일 실시예에 따르면, 프로세서(1300)는 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득하고, 타겟 이미지를 생성된 제1 인공 지능 모델에 적용함으로써, 타겟 이미지 내의 특징점들이 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상이한 종류의 대상 객체의 얼굴을 추출하고, 제2 인공 지능 모델에 변형 전의 타겟 이미지 및 변형된 타겟 이미지를 입력함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다.
[83]
구체적으로, 프로세서(1300)는 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트와 상이한 대상 객체가 포함된 타겟 이미지를 통신부(1500)를 통해 소정 개수 이하로 수신할 수 있다. 프로세서(1300)는 기 생성된 제1 인공 지능 모델 및 제2 인공 지능 모델에 기초하여, 타겟 이미지를 표본 구조로 변형하고, 변형된 타겟 이미지에 기초하여 상이한 대상 객체의 얼굴을 추출할 수 있다. 즉, 프로세서(1300)는 표본 구조를 이용함으로써, 소정 개수 이하의 이미지만으로 타겟 이미지에 포함된 대상 객체의 얼굴을 추출할 수 있어 데이터 효율성 및 얼굴 인식 속도를 향상시킬 수 있다는 이점이 있다.
[84]
통신부(1500)는, 타겟 이미지 또는 학습 이미지를 수신하기 위한 외부 디바이스(미도시)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 또한, 통신부(1500)는 얼굴 인식 결과를 외부 디바이스(미도시)에 전송할 수 있다. 통신부(1500)는 근거리 통신부, 이동 통신부 등을 포함할 수 있으나 이에 제한되는 것은 아니다.
[85]
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
[86]
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
[87]
도 10은 일부 실시예에 따른 프로세서의 블록도이다.
[88]
도 10을 참조하면, 일부 실시예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.
[89]
데이터 학습부(1310)는 학습 이미지로부터 표본 구조를 결정하기 위한 기준을 학습할 수 있다. 데이터 학습부(1310)는 표본 구조를 결정하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 학습 이미지를 어떻게 변형시킬 지에 관한 기준을 학습할 수 있다. 예를 들어, 데이터 학습부(1310)는 학습 이미지에 레이블링된 특징 점들을 이용할 수 있다. 또한, 데이터 학습부(1310)는 레이블링된 특징 점들에 기초하여 특징 점들이 형성하는 표본 구조를 결정하고, 표본 구조에 기초하여 학습 이미지를 변형함으로써, 표본 구조에 대응되는 특징 점들에 기초하여 대상 객체의 얼굴을 식별하기 위한 기준을 학습할 수 있다.
[90]
또한, 데이터 학습부(1310)는 학습 이미지에 결정된 표본 구조를 적용함으로써, 변형된 학습 이미지를 획득하고, 변형된 학습 이미지에 기초하여 표본 구조를 검증할 수 있다. 구체적으로, 데이터 학습부(1310)는 변형된 학습 이미지를 복원함으로써, 복원된 학습 이미지 및 변형 전 학습 이미지 간 비교를 통해 표본 구조를 검증하기 위한 기준을 학습할 수 있다.
[91]
구체적으로, 데이터 학습부(1310)는 표본 구조를 결정하기 위한 학습 이미지를 획득할 수 있다. 예를 들어, 데이터 학습부(1310)는 도 1 및 도 2에서 전술한 바와 같이, 복수 종류의 대상 객체들에 각각 대응되는 학습 이미지 세트들을 획득할 수 있으나, 도 1 및 도 2에서 전술된 실시예에 한정되는 것은 아니다.
[92]
데이터 학습부(1310)는 획득된 학습 이미지로부터 얼굴 인식을 위한 데이터를 추출할 수 있도록, 획득된 데이터를 전처리할 수 있다. 데이터 학습부(1310)는, 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
[93]
데이터 학습부(1310)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 구체적으로, 데이터 학습부(1310)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다.
[94]
데이터 학습부(1310)는 학습 데이터에 기초하여 학습 이미지를 표본 구조로 변형하기 위한 기준을 학습할 수 있다. 또한, 데이터 학습부(1310)는 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.
[95]
또한, 데이터 학습부(1310)는 학습 이미지 내에 기설정된 구조를 형성하는 특징점들이 레이블링된 것에 기초하여 제1 인공 지능 모델 및 제2 인공 지능 모델을 학습시킬 수 있다. 이하에서는, 설명의 편의 상 제1 인공 지능 모델 및 제2 인공 지능 모델을 모두 포함하는 것을 인공 지능 모델이라 한다.
[96]
또는, 데이터 학습부(1310)는 인공 지능 모델을 생성하고, 생성된 인공 지능 모델을 학습시킬 수도 있다. 인공 지능 모델은 소수 시도 학습(few-shot adaptation)을 위한 학습 모델일 수 있다.
[97]
인공 지능 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인공 지능 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인공 지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
[98]
다양한 실시예에 따르면, 데이터 학습부(1310)는 미리 구축된 인공 지능 모델이 복수 개가 존재하는 경우, 입력된 학습 이미지와 학습 데이터의 관련성이 인공 지능 모델을 학습할 인공 지능 모델로 결정할 수도 있다.
[99]
또한, 데이터 학습부(1310)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 인공 지능 모델을 학습시킬 수 있다.
[100]
또한, 데이터 학습부(1310)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 인공 지능 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1310)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 인공 지능 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1310)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 인공 지능 모델을 학습시킬 수 있다.
[101]
또한, 인공 지능 모델이 학습되면, 데이터 학습부(1310)는 학습된 인공 지능 모델을 저장할 수 있다. 이 경우, 데이터 학습부(1310)는 학습된 인공 지능 모델을 후술할 데이터 인식부(1320)를 포함하는 전자 장치(1000)의 메모리에 저장할 수 있다. 또는, 데이터 학습부(1310)는 학습된 인공 지능 모델을 전자 장치(1000)와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
[102]
이 경우, 학습된 인공 지능 모델이 저장되는 메모리는, 예를 들면, 전자 장치(1000)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
[103]
데이터 학습부(1310)는 제2 인공 지능 모델에 복원된 학습 이미지 및 변형 전 학습 이미지를 입력하고, 복원된 학습 이미지 및 변형 전 학습 이미지 간 차이에 기초하여, 차이 값이 소정 기준을 만족하지 못하는 경우, 제1 인공 지능 모델이 검증되지 못한 것으로 판단할 수 있다. 이 경우, 데이터 학습부(1310)는 다시 제1 인공 지능 모델을 학습할 수 있다.
[104]
예를 들어, 데이터 학습부(1310)는 평가 데이터에 대한 학습된 인공 지능 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 인공 지능 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 데이터 학습부(1310)는 학습된 인공 지능 모델이 적합하지 않은 것으로 평가할 수 있다.
[105]
한편, 데이터 학습부(1310)는 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
[106]
또한, 데이터 학습부(1310)는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310)가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
[107]
데이터 인식부(1320)는 타겟 이미지로부터 상이한 대상 객체의 얼굴을 추출하기 위해 제1 인공 지능 모델을 이용할 수 있다. 데이터 인식부(1320)는 타겟 이미지를 제1 인공 지능 모델에 입력함으로써, 표본 구조에 기초하여 타겟 이미지를 변형할 수 있다. 이 때, 데이터 인식부(1320)는 변형된 타겟 이미지로부터 표본 구조에 대응되는 특징 점들에 기초하여 대상 객체의 얼굴을 추출할 수 있다. 데이터 인식부(1320)는 학습에 의해 기 설정된 기준에 따라 대상 객체의 눈 코에 대응되는 특징 점들을 획득하고, 획득된 특징 점들에 기초하여 변형된 타겟 이미지로부터 추출된 상이한 대상 객체의 얼굴을 출력 데이터로 제공할 수 있다. 또한, 데이터 인식부(1320)는 변형된 타겟 이미지 및 변형 전 타겟 이미지를 제2 인공 지능 모델에 입력함으로써, 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이에 기초하여, 추출된 얼굴을 검증할 수 있다.
[108]
데이터 인식부(1320)는 타겟 이미지 내에 레이블링된 특징 점들과 관련된 데이터를 획득할 수 있으며, 데이터 인식부(1320)는 획득된 데이터를 전처리할 수 있다. 데이터 인식부(1320)는 타겟 이미지 내에 포함된 특징 점들과 관련된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 데이터 인식부(1320)는, 예를 들어, 도 6 내지 도 8에서의 데이터를 획득할 수 있으나, 이에 제한되지 않는다.
[109]
데이터 인식부(1320)는 전처리된 데이터 중에서 필요한 데이터를 선택할 수 있다. 선택된 데이터는 데이터 학습부(1310)에게 제공될 수도 있다. 데이터 인식부(1320)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 데이터 인식부(1320)는 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
[110]
데이터 인식부(1320)는 선택된 데이터를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하기 위한 데이터를 출력할 수 있다. 데이터 인식부(1320)는 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 인공 지능 모델에 적용할 수 있다. 또한, 인식 결과는 인공 지능 모델에 의해 결정될 수 있다.
[111]
이 때, 인공 지능 모델은, 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델 및 변형된 학습 이미지로부터 복원된 이미지 및 변형 전의 학습 이미지를 비교하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 포함할 수 있다.
[112]
데이터 인식부(1320)는 제2 인공 지능 모델의 출력 결과에 기초하여, 제1 인공 지능 모델이 갱신되도록 할 수 있다. 예를 들어, 데이터 인식부(1320)는 제2 인공 지능 모델에 의해 제공되는 인식 결과를 데이터 학습부(1310)에게 제공함으로써, 데이터 학습부(1310)가 제1 인공 지능 모델을 갱신하도록 할 수 있다.
[113]
한편, 데이터 인식부(1320)는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치(1000)에 탑재될 수 있다. 예를 들어, 데이터 인식부(1320)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. 또한, 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다.
[114]
또한, 데이터 인식부(1320)는 소프트웨어 모듈로 구현될 수 있다. 데이터 인식부(1320)가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
[115]
데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
[116]
이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.
[117]
한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
[118]
도 11은 일부 실시예에 따른 디바이스 및 전자 장치가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
[119]
도 11을 참조하면, 데이터 학습부(1310)는 전자 장치(1000)에 포함되고, 데이터 인식부(2300)는 디바이스(2000)에 포함될 수 있다. 이 때, 전자 장치(1000)는 서버일 수 있다. 다만, 데이터 학습부(1310) 및 데이터 인식부(2300)는 전술된 예에 한정되지 않고, 다른 형태로 구현될 수 있음은 물론이다.
[120]
데이터 학습부(1310)는 획득된 학습 이미지 내에 기설정된 구조를 형성하는 특징점들이 레이블링 된 것에 기초하여, 얼굴 인식을 위해 학습 이미지를 표본 구조로 변형하기 위한 기준을 학습할 수 있다. 또한, 데이터 인식부(2300)는, 디바이스(2000)로부터 타겟 이미지가 선택되면, 데이터 학습부(1310)에서 생성된 인공 지능 모델을 이용하여 타겟 이미지 내 상이한 대상 객체의 얼굴을 추출할 수 있다.
[121]
이 경우, 전자 장치(1000)의 데이터 학습부(1320)는 기설정된 구조를 형성하는 특징 점들이 학습 이미지 내에 레이블링된 것에 기초하여 학습 이미지를 표본 구조로 변형하여 대상 객체의 얼굴을 인식하기 위한 기준을 학습할 수 있다. 데이터 학습부(1320)는 학습에 이용될 데이터를 획득하고, 획득된 데이터에 기초하여 학습 이미지에 포함된 대상 객체의 얼굴을 식별하기 위한 인공 지능 모델을 생성할 수 있다.
[122]
또한, 디바이스(2000)의 데이터 인식부(2300)는 타겟 이미지로 선택된 데이터가 전자 장치(1000)에 의해 생성된 인공 지능 모델에 적용된 결과를 제공할 수 있다. 예를 들어, 디바이스(2000)의 데이터 인식부(2300)는 타겟 이미지를 전자 장치(1000)에게 전송하고, 전자 장치(1000)가 타겟 이미지를 인공 지능 모델에 적용하여, 타겟 이미지에 포함된 대상 객체의 얼굴을 추출할 것을 요청할 수 있다. 또한, 데이터 인식부(2300)는 추출된 대상 객체의 얼굴과 관련된 정보를 전자 장치(1000)로부터 수신할 수 있다.
[123]
또는, 디바이스(2000)의 데이터 인식부(2300)는 전자 장치(1000)에 의해 생성된 인공 지능 모델을 전자 장치(1000)로부터 수신하고, 수신된 인공 지능 모델을 이용하여 타겟 이미지로부터 얼굴을 추출하기 위해 타겟 이미지를 처리할 수 있다. 한편, 도 11에서는 전자 장치(1000) 및 디바이스(2000)가 연동함으로써 복수의 학습 이미지 세트에 포함된 복수 종류의 대상 객체들과 상이한 대상 객체를 타겟 이미지로부터 추출하는 것으로 설명하였지만, 이에 제한되는 것은 아니다.
[124]
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
[125]
또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
[126]
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
[127]
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

청구범위

[청구항 1]
전자 장치가 이미지를 처리하는 방법에 있어서, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것인, 동작; 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하는 동작; 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하는 동작; 및 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 상기 학습 이미지에 기초하여 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는 동작; 을 포함하는, 방법.
[청구항 2]
제1항에 있어서, 상기 제2 인공 지능 모델은, 상기 변형된 학습 이미지를 복원하고, 상기 복원된 학습 이미지 및 상기 변형되기 이전의 상기 학습 이미지 간의 차이에 기초하여, 상기 제1 인공 지능 모델을 검증하는 것인, 방법.
[청구항 3]
제1항에 있어서, 상기 제2 인공 지능 모델을 이용하여 상기 제1 인공 지능 모델을 검증하는 동작; 및 상기 검증 결과에 기초하여, 상기 표본 구조를 변경하도록 상기 제1 인공 지능 모델을 업데이트하는 동작; 을 더 포함하는, 방법.
[청구항 4]
제1항에 있어서, 상기 기설정된 구조는, 상기 학습 이미지 내의 상기 대상 객체의 눈 및 코를 연결하는 삼각형 구조인 것인, 방법.
[청구항 5]
제1항에 있어서, 상기 표본 구조는 상기 레이블링된 특징점들 및 STN(Spatial Transform Network)함수에 기초하여 결정되는 것인, 방법.
[청구항 6]
제1항에 있어서, 상기 학습 이미지 내의 상기 특징점들이 상기 표본 구조를 형성하도록 상기 학습 이미지를 변형함으로써, 상기 변형된 학습 이미지가 생성되는 것인, 방법.
[청구항 7]
제1항에 있어서, 상기 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득하는 동작; 상기 타겟 이미지를 상기 생성된 제1 인공 지능 모델에 적용함으로써, 상기 타겟 이미지 내의 특징점들이 상기 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상기 상이한 종류의 대상 객체의 얼굴을 추출하는 동작; 및 상기 제2 인공 지능 모델에 상기 변형 전의 타겟 이미지 및 상기 변형된 타겟 이미지를 입력함으로써, 상기 제1 인공 지능 모델에 기초하여 추출된 상기얼굴을 검증하는 동작; 을 더 포함하는, 방법.
[청구항 8]
제1항에 있어서, 상기 제1 인공 지능 모델 및 상기 제2 인공 지능 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 또는 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델인 것인, 방법.
[청구항 9]
이미지를 처리하는 전자 장치에 있어서, 통신부; 적어도 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 적어도 하나 이상의 인스트럭션을 실행함으로써 상기 전자 장치를 제어하는 프로세서; 를 포함하며, 상기 프로세서는, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것이고, 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하고, 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하고, 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 학습 이미지에 기초하여, 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는, 전자 장치.
[청구항 10]
제9항에 있어서, 상기 프로세서는, 상기 변형된 학습 이미지를 복원하고, 상기 복원된 학습 이미지 및 상기 변형되기 이전의 상기 학습 이미지 간의 차이에 기초하여, 상기 제1 인공 지능 모델을 검증하는, 전자 장치.
[청구항 11]
제9항에 있어서, 상기 프로세서는, 상기 제2 인공 지능 모델을 이용하여 상기 제1 인공 지능 모델을 검증하고, 상기 검증 결과에 기초하여, 상기 표본 구조를 변경하도록 상기 제1 인공 지능 모델을 업데이트하는, 전자 장치.
[청구항 12]
제9항에 있어서, 상기 기설정된 구조는, 상기 학습 이미지 내의 상기 대상 객체의 눈 및 코를 연결하는 삼각형 구조인 것인, 전자 장치.
[청구항 13]
제9항에 있어서, 상기 표본 구조는 상기 레이블링된 특징점들 및 STN(Spatial Transform Network)함수에 기초하여 결정되는 것인, 전자 장치.
[청구항 14]
제9항에 있어서, 상기 학습 이미지 내의 상기 특징점들이 상기 표본 구조를 형성하도록 상기 학습 이미지를 변형함으로써, 상기 변형된 학습 이미지가 생성되는 것인, 전자 장치.
[청구항 15]
제9항에 있어서, 상기 프로세서는, 상기 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득하고, 상기 타겟 이미지를 상기 생성된 제1 인공 지능 모델에 적용함으로써, 상기 타겟 이미지 내의 특징점들이 상기 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상기 상이한 종류의 대상 객체의 얼굴을 추출하고, 상기 제2 인공 지능 모델에 상기 변형 전의 타겟 이미지 및 상기 변형된 타겟 이미지를 입력함으로써, 상기 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증하는, 전자 장치.

도면

[도1]

[도2]

[도3]

[도4]

[도5]

[도6]

[도7]

[도8]

[도9]

[도10]

[도11]