Traitement en cours

Veuillez attendre...

Paramétrages

Paramétrages

Aller à Demande

1. WO2020111827 - SERVEUR ET PROCÉDÉ DE GÉNÉRATION DE PROFIL AUTOMATIQUE

Document

명세서

발명의 명칭

기술분야

1  

배경기술

2   3   4   5   6  

발명의 상세한 설명

기술적 과제

7  

과제 해결 수단

8   9  

발명의 효과

10   11   12   13  

도면의 간단한 설명

14   15   16   17   18   19   20   21  

발명의 실시를 위한 최선의 형태

22   23  

발명의 실시를 위한 형태

24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50   51   52   53   54   55   56   57   58   59   60   61   62   63   64   65   66   67  

산업상 이용가능성

68   69  

청구범위

1   2   3   4   5   6   7   8   9   10   11   12   13  

도면

1   2   3   4   5   6   7  

명세서

발명의 명칭 : 프로필 자동생성서버 및 방법

기술분야

[1]
프로필 자동생성서버와 방법에 관한 것으로 구체적으로, 온라인에서 수집할 수 있는 기사, 칼럼 등의 문서를 입력하면 입력된 문서에서 프로필 정보가 항목에 따라 자동 정렬되어 출력되는 프로필 정보 자동 생성 서버 및 방법에 관한 것이다.

배경기술

[2]
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.
[3]
인공지능기술은 다양한 분야에서 연구 개발되고 있다. 최근에는 빅데이터분석, 음성인식, 언어함의인식 등 실생활에서 유용하게 이용될 수 있는 인공지능 프로그램이 확산되어 다양한 스마트 단말에서 이용되고 있다.
[4]
인공지능기술의 다양한 분야 중 언어함의인식 분야는, 문서에 포함된 언어 컨텐츠의 해석, 분류, 추론과 같은 고급데이터처리를 사람이 아닌 자동화 시스템으로 수행할 수 있도록 한다. 언어 처리와 관련된 인공지능 기술은 최근 스마트기기제어 및 스마트 홈 서비스 등에 적용되어 더욱 편리하게 스마트 단말을 제어할 수 있도록 한다. 언어인식과 관련된 인공지능은 음성인식뿐만 아니라 문서, 문장, 단어 인식 등 기록된 언어 정보를 해석하고, 중요 정보를 추출하는 과정에도 이용될 수 있다.
[5]
특히, 기술 발전으로 경제 인구가 찾고 활용하는 기업 정보, 인물 정보 등이 온라인 상에 많이 생성되었고, 기사, 칼럼, 인터뷰 등 많은 사람들의 정보를 담고 있는 디지털 콘텐츠가 시시각각 생성되고 있다. 이러한 콘텐츠는 여러 곳에 흩어져 있기 때문에, 사용자들은 온라인 검색 서비스 혹은 오프라인 자료 등을 활용하여 수동으로 필요한 정보를 직접 찾아 활용하고 있다. 혹은 언론사 등 각 카테고리 정보를 많이 수집하고 있는 기관은 인물 정보 등을 수동으로 생성하고 업데이트 하는 노력을 통해 정보를 유통하고 있다.
[6]
수동으로 관리하는 프로필 정보는 언어인식 기술을 통해 프로필 정보 생성 및 업데이트를 자동화 할 수 있다. 하지만, 종래 언어인식기술은 주로 형태소 분류 및 분석을 통해 단어의 의미를 파악하기 때문에, 고유명사, 외래어 및 새로운 단어가 많이 쓰이는 프로필 정보는 부정확하게 인식되는 경우가 많다.

발명의 상세한 설명

기술적 과제

[7]
실시예에서는 경제 인구가 필요로 하고 즐겨 찾는 기업 정보, 인물 정보, 저서 정보 등 다양한 비즈니스 정보를 데이터 단위로 자동 수집하고, 자동 수집된 데이터를 사람들이 활용하기 편리한 형태로 자동 추출 및 가공하는 프로필 정보생성 서버 및 방법을 제공한다.

과제 해결 수단

[8]
실시예에 따른 프로필 자동생성 서버는 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈; 수집된 문서와 문서의 출처 및 웹 공간정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스; 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함한다.
[9]
다른 실시예에 따른 프로필 자동생성 방법은 (A) 수집모듈은 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 단계; (B) 데이터베이스는 수집된 문서와 문서의 출처 및 웹 공간정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 단계; (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 및 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 를 포함한다.

발명의 효과

[10]
실시예에 따른 프로필 정보생성서버 및 방법은 다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요정보인 프로필 정보를 자동으로 정확하게 추출할 수 있도록 한다.
[11]
머신러닝을 통해 추출된 프로필 데이터가 누적될수록 프로필 정보추출 정확도 및 속도를 향상 시킬 수 있도록 한다. 또한, 동일인의 프로필 정보에 포함된 특정 키워드가 반복적으로 추출되는 경우, 키워드에 대한 신뢰도를 산출하여 특정 프로필 정보가 얼마나 정확한지 파악할 수 있도록 한다.
[12]
실시예에 따른 프로필 정보생성서버 및 방법은 프로필 정보의 신뢰도 연산, 동명이인의 프로필 데이터 분리 및 지속적인 프로필 정보의 업데이트를 자동으로 수행함으로써, 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다.
[13]
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도면의 간단한 설명

[14]
도 1은 실시예에 따른 프로필 생성 서버의 대략적인 데이터 처리블록을 나타낸 도면
[15]
도 2는 실시예에 따른 프로필 정보생성서버의 데이터 처리 블록을 보다 상세하게 나타낸 도면
[16]
도 3은 실시예에 따른 프로필 정보 생성 서버의 머신러닝 과정을 설명하기 위한 도면
[17]
도 4는 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면
[18]
도 5는 실시예에 따른 프로필 정보 자동생성을 위한 데이터 처리 흐름을 나타낸 도면
[19]
도 6은 실시예에 따른 프로필 예비정보 생성을 위한 데이터 처리과정을 나타낸 도면
[20]
도 7은 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면
[21]

발명의 실시를 위한 최선의 형태

[22]
실시에에 따른 프로필 자동생성 서버는 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈; 상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스;프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및 상기 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함한다.
[23]

발명의 실시를 위한 형태

[24]
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
[25]
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
[26]
도 1은 실시예에 따른 프로필 생성 서버의 대략적인 데이터 처리블록을 나타낸 도면이다.
[27]
도 1을 참조하면, 실시예에 따른 프로필 생성서버는 수집모듈(110), 데이터베이스(130), 추출모듈(150) 및 생성모듈(170)을 포함하여 구성될 수 있다.
[28]
본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.
[29]
수집모듈(110)은 여러 웹 공간 및 외부서버에서 문서를 주기적으로 수집한다. 예컨대, 수집모듈(110)은 뉴스사이트, 블로그 및 각종 SNS 등의 웹 공간에서 기사, 칼럼, 인터뷰 등이 기록된 문서 데이터를 주기적으로 수집한다.
[30]
데이터베이스(130)는 수집된 문서와 문서의 출처 및 웹 공간 정보와 프로필 생성 정보 등 프로필 정보 생성을 위해 필요한 일련의 데이터를 저장한다. 예컨대, 데이터베이스(130)에는 프로필 정보 생성에 필요한 키워드, 태그 등이 저장될 수 있다. 실시예에서 키워드는 서버에 입력되는 문장에서 추출한 단어와 고유명사로서, 프로필 정보를 나타내는 컨텐츠 데이터이다. 태그는 키워드 및 프로필 정보의 카테고리로서, 특정 키워드의 상위정보가 될 수 있다. 예컨대, 키워드가 '부장' 인 경우, '부장' 키워드의 태그는 '직책'이 될 수 있고, 키워드가 '30세' 인 경우 '30세' 키워드의 태그는 '나이' 가 될 수 있다. 데이터베이스(130)에는 키워드와 태그 및 키워드와 태그로 생성된 프로필 정보가 누적 저장되고, 동일한 인물의 변경되는 프로필 정보는 업데이트하여 저장한다.
[31]
추출모듈(150)은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출한다. 이후, 키워드를 구성하는 글자에 프로필 카테고리 정보를 나타내는 태그를 태깅(tagging)하여 프로필 예비정보를 생성한다. 실시예에서 서버로 '주식회사 엘비전의 백현아 대표매니저는 업계경력이 10년이상인 베테랑이다' 라는 문장이 입력된 경우, 키워드로 '엘비전'을 추출하면 '엘비전'을 구성하는 글자 하나하나에 태그를 부가한다. 구체적으로, '엘_회사, 비_회사, 전_회사' 와 같은 형태의 데이터가 프로필 예비정보가 될 수 있다. 실시예에서 키워드에 부가되는 태그정보는 특정 키워드와 인접한 다른 키워드를 통해 선정하거나, 데이터베이스에 누적 학습된 키워드 태그정보를 로딩하여 이용할 수 있다. 앞의 예를 이어 설명하면, 엘비전은 인접한 다른 키워드인 주식회사 라는 단어를 인식하여 엘비전 이라는 키워드를 구성하는 각 단어에 부가되는 태그정보를 '회사'로 선정할 수 있다.
[32]
생성모듈(170)은 추출된 프로필 예비정보를 수집하여 키워드를 생성하고, 키워드는 프로필 정보 카테고리에 따라 분류한다. 예컨대 생성모듈(170)은 동일한 태그가 연속으로 각 글자에 부가된 경우, 동일한 태그를 가지고 있는 글자들을 병합하여 키워드를 생성한다. 구체적으로 회사 태그가 연속되어 나타나는 경우, 동일한 태그가 태깅된 '엘','비','전' 이라는 단어를 각각 수집하고 이를 병합하여 '엘비전' 이라는 키워드를 생성한다. 이후 생성모듈(170)은 키워드를 키워드에 태깅된 태그 정보에 따라 분류 정렬한 프로필 정보를 생성하고 이를 디스플레이 한다. 위의 예시를 이어 설명하면, '회사: 엘비전' 이라는 형태로 키워드와 키워드에 부여된 태그정보를 분류한 프로필 정보를 생성해 낼 수 있다.
[33]
또한, 실시예에서 생성모듈(170)은 키워드 생성 후 이를 저장하고, 새로운 입력데이터 분석 시 태깅된 단어를 병합하는 과정에서 병합된 단어가 기 저장된 키워드와 일정비율이상 동일한 경우, 기 저장된 키워드를 추천할 수 있다. 위의 예를 이어 설명하면, 프로필 생성서버(100)가 '엘비전'이라는 회사이름 키워드를 생성하고 기 저장한 경우, 생성모듈(170)이 '엘_회사, 비_회사' 라는 연속된 글자를 입력 받으면, 기 저장된 '엘비전' 이라는 키워드를 구성하는 글자 및 태그의 일치율을 산출하고, 산출된 일치율이 일정수준(기준값) 이상인 경우, '엘비전'을 프로필 정보의 회사에 해당하는 키워드로 자동 추출할 수 있다. 실시예에서는 생성모듈(170)이 '엘비'까지 인식하면 '엘비전'이라는 기 저장된 키워드와 66%의 일치율이 산출되므로, 2개의 글자와 2개 글자의 태그까지만 인식한 후 '엘비전' 이라는 키워드를 생성모듈(170)이 자동 추천할 수 있다. 실시예에서 키워드 자동추천을 수행하는 일치 율의 기준값은 기 저장된 키워드를 구성하는 글자수와 태그 수에 따라 달라질 수 있다. 예컨대, 3글자로 구성된 키워드의 경우 2개의 글자까지 글자와 태그가 동일하면 키워드를 자동 추천하는 66% 를 기준값으로 설정할 수 있고, 5글자로 구성된 키워드의 경우 3글자까지 글자와 태그정보가 동일하면 키워드를 자동 추천하는 60%를 기준값으로 설정할 수 있다.
[34]
도 2는 실시예에 따른 프로필 정보생성서버의 데이터 처리 블록을 보다 상세하게 나타낸 도면이고 도 3은 실시예에 따른 프로필 정보 생성 서버의 머신러닝 과정을 설명하기 위한 도면이다.
[35]
도 2를 참조하면, 실시예에 따른 프로필 정보생성 서버의 데이터베이스는 키워드 저장부(131), 태그저장부(133), 프로필 예비정보 저장부(135)로 구성될 수 있고, 추출모듈(150)은 학습부(151), 추출부(153) 및 태깅부(155)를 포함하여 구성될 수 있고, 생성모듈(170)은 생성부(171), 분류부(173) 및 출력부(175)를 포함하여 구성될 수 있고, 연산모듈(190)은 카운팅부(191) 및 연산부(193)를 포함하여 구성될 수 있다.
[36]
데이터베이스의 키워드 저장부(131)에는 프로필 정보가 되는 고유명사와 단어가 분류되어 저장된다. 태그 저장부(133)에는 프로필 정보의 세부 항목 정보가 저장된다. 예컨대 태그 저장부에는 직업, 나이, 생년월일, 소속, 기관, 직책, 경력, 특이사항, 주소, 직장, 연매출 등 프로필 정보를 구성하는 카테고리 정보들이 저장된다. 프로필 예비정보 저장부(135)는 키워드를 구성하는 글자에 태그가 부가된 프로필 예비정보가 저장된다.
[37]
추출모듈(150)의 학습부(151)는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다. 실시예에서는 Named Entity Recognition(이하 NER)을 가능하게 하기 위해 기계학습의 모델을 학습할 수 있다.
[38]
실시예에서, 생성모듈(170)은 단어를 구성하는 특정글자의 태깅오류를 수정하기 위해 특정글자에 인접한 글자의 태깅정보를 이용할 수 있다. 예컨대, 입력된 문장에서 '성'과 '명'을 제외한 나머지 태그 분석결과, 연속된 태그가 2개 이상 나오지 않는 경우 생성모듈(170)은 특정글자의 앞 글자와 뒤 글자인 주변 글자들의 태그를 인식한다. 인식된 주변글자들인 앞 글자와 뒤 글자의 태그가 동일 종류의 태그인 경우 중간글자인 특정글자의 태그를 앞글자 및 뒤글자의 태그와 동일한 태그로 변경한다. 이후, 태그가 변경된 글자까지 포함한 키워드를 생성한다. 구체적으로 생성모듈(170)은 A_tag1, B_tag2, C_tag1, D_tag1, E_tag1 인 경우 B를 tag1으로 변경하고 'ABCDE'를 tag1으로 인식할 수 있다. 이를 통해, 태깅 오류로 인한 프로필 생성의 에러율을 낮출 수 있다.
[39]
도 3을 참조하여, 추출모듈의 머신러닝과정을 설명하면, 추출모듈은 데이터베이스에서 키워드와 분류가 태깅된 프로필 예비단어 데이터를 전달 받는다. 이후 전달된 데이터로 학습(training)과정을 거쳐 프로필 정보에 대한 모델 (model)을 생성한다. 실시예에서는 LSTM(RNN)이나 CNN을 비롯한 다양한 Neural Network를 사용할 수 있다. 이후, 생성된 모델을 바탕으로 새로운 입력에 대한 예측(prediction)을 수행한다. 즉 추출부(151)는 머신러닝 결과에 따라 문서를 입력 받으면 자동으로 키워드를 추출하게 된다.
[40]
태깅부(155)는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여한다. 실시예에서는 키워드와 인접한 다른 단어가 프로필 카테고리 정보를 나타내는 태그일 경우, 이를 키워드의 각 글자에 부가할 수 있다.
[41]
생성모듈(170)은 추출모듈(150)로부터 글자 각각에 태그가 부여된 키워드를 수집하고, 연속적으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성한다. 이후 분류부(173)는 생성된 키워드를 키워드가 나타내는 프로필 정보 카테고리에 따라 분류한다. 예컨대 분류부(172)는 키워드에 부여된 태그정보에 따라 분류할 수 있다.
[42]
출력부(175)는 키워드를 태그정보에 따라 정렬한 프로필 정보를 디스플레이 한다.
[43]
연산모듈(191)은 수집된 문서에서 키워드와 태그가 추출된 횟수에 따라 프로필 중요도를 산출하고, 동일인물의 프로필 정보로 특정 키워드가 추출되는 경우, 추출된 키워드에 대한 신뢰도를 산출할 수 있다. 이를 위해 카운팅부(191)는 키워드와 태그가 추출된 횟수를 카운팅하고, 연산부(193)는 동일한 인물에 대한 동일 키워드 카운팅 횟수에 비례하는 키워드 신뢰도를 산출한다.
[44]
실시예에서 생성모듈(170)은 동명이인에 대한 프로필 정보를 각각 독립적으로 생성하여 관리하거나, 동일인물에 대한 프로필이 변경된 경우 이를 업데이트 할 수 있다.
[45]
생성모듈(170)은 생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 카테고리의 프로필정보를 비교하여 동일한 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 동명이인에 대한 새로운 프로필 정보를 생성할 수 있다. 또한, 실시예에서 생성모듈(170)은 동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일 등 신원확인을 위한 고유정보를 비교한 결과에 따라 생성된 프로필 정보가 동일인의 프로필인지 판단할 수 있다. 이름과 고유정보가 일치한다면, 다른 카테고리의 프로필 정보를 비교하고, 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 할 수 있다.
[46]
도 4는 실시예에 따른 프로필 정보 생성 서버의 학습과정 및 프로필 정보생성 서버의 학습데이터를 설명하기 위한 도면이다.
[47]
도 4를 참조하면, 서버에 “대학에서 영상학을 전공한 3D 아이픽쳐스 신용수 대표는 세계 최초로 수중 3D 촬영장비를 개발해 특허 등록을 마쳤다.” (10)의 문장을 입력하면, 서버는 띄어쓰기나 단어 및 형태소 구별에 관계없이 문장을 구성하는 글자를 하나씩 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 4에 도시된 바와 같이, '영상학' 이라는 키워드를 구성하는 '영' 글자에는 전공 태그가 부여되고, 대표라는 키워드를 구성하는 '대'라는 글자에는 직책 태그가 부여된다. 도 4의 표 (a)에 도시된 글자, 태그 및 데이터는 글자에 태그가 부여된 프로필 예비정보는 프로필 정보생성서버의 학습데이터로 사용된다.
[48]
실시예에서는 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 4의 b와 같은 프로필 정보를 생성할 수 있다.
[49]
종래 한글 텍스트를 의미 분석하여 프로필 정보와 같은 유효정보를 추출할 때는 일반적으로 형태소 분석기를 사용한 결과로 나온 단어를 하나의 의미 단위로 사용한다. 위 문장을 형태소 분석기의 입력으로 사용하면 '영상학'이나 '대표'가 단어로 뽑히고, 해당 단어에 '전공'과 '직책'이라는 태그를 부여할 수 있다. 하지만, 형태소에 태그를 부여하는 방법은 고유명사나 새로운 단어가 많은 회사 이름, 성명 등은 인식되지 않기 때문에 부정확한 프로필 정보를 생성할 가능성이 높다. 실시예에 따른 프로필 생성서버는 형태소 분석기를 사용하지 않고 한 글자마다 태그를 부여하여 프로필 정보를 생성하기 때문에, 외래어, 새로운 단어나 고유명사가 많은 회사명칭이나 이름 등 중요한 프로필 정보를 정확하게 인식할 수 있도록 한다.
[50]
이하에서는 프로필 정보 생성 방법에 대해서 차례로 설명한다. 실시예에 따른 프로필 정보 생성 방법의 작용(기능)은 프로필 정보 생성 서버의 기능과 본질적으로 같은 것이므로 도 1 내지 도 4와 중복되는 설명은 생략하도록 한다.
[51]
도 5는 실시예에 따른 프로필 정보 자동생성을 위한 데이터 처리 흐름을 나타낸 도면이다.
[52]
S510 단계에서 수집모듈은 프로필 자동생성 서버에서 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집한다.
[53]
S530 단계에서는 데이터베이스에 수집된 문서와 상기 문서의 출처 및 웹 공간 정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장한다.
[54]
S550 단계에서 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출하고, 키워드를 구성하는 글자에 프로필 카테고리 정보를 태깅(tagging)하여 프로필 예비정보를 생성한다.
[55]
S570 단계에서 생성모듈은 추출된 프로필 예비정보를 수집하여 키워드는 프로필 정보 카테고리에 따라 분류하고, 연속으로 태깅된 글자를 병합하여 프로필 단어를 생성하고, 키워드와 프로필 단어를 수집하여 프로필 정보를 생성한다.
[56]
S590 단계에서는 키워드와 프로필 단어를 카테고리에 따라 디스플레이 프로필 정보를 디스플레이 한다.
[57]
도 6은 실시예에 따른 프로필 예비정보 생성을 위한 데이터 처리과정을 나타낸 도면이다.
[58]
S551 단계에서는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다.
[59]
S553 단계에서는 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출한다.
[60]
S555 단계에서는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 프로필 정보를 나타낼 프로필 예비정보를 생성한다.
[61]
도 7은 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면이다.
[62]
도 7을 참조하면, 서버에 “이제 10년을 넘긴 프로 게임판의 게임캐스터 전용준 씨는 국내는 물론 세계 게임캐스터 분야를 개척하고 있는 인물이다.” (20)의 문장을 입력하면, 서버는 띄어쓰기에 따라 문장을 구성하는 단어와, 단어를 구성하는 글자를 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 7에 도시된 바와 같이, '게임캐스터'라는 키워드를 구성하는 '게' 글자에는 직책 태그가 부여되고, '전용준'라는 키워드를 구성하는 '전'라는 글자에는 성 태그가 부여된다. 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 7의 b와 같은 프로필 정보를 생성할 수 있다.
[63]
실시예에 따른 프로필 정보 생성 서버 및 방법은 다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요한 유효정보인 프로필 정보를 자동으로 정확하게 추출할 수 있도록 한다.
[64]
머신러닝을 통해 추출된 프로필 데이터가 누적될수록 프로필 데이터 추출 정확도 및 속도를 향상 시킬 수 있도록 한다.
[65]
실시예에 따른 프로필 정보 생성 서버 및 방법은 프로필 정보의 신뢰도 연산, 동명이인의 프로필 데이터 분리 및 지속적인 프로필 정보의 업데이트를 자동으로 수행함으로써, 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다.
[66]
개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.
[67]

산업상 이용가능성

[68]
다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요정보인 프로필 정보를 자동으로 정확하게 추출하여 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다.
[69]

청구범위

[청구항 1]
프로필 자동생성 서버에 있어서, 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 수집모듈; 상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 데이터베이스; 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 추출모듈; 및 상기 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 생성모듈; 을 포함하는 프로필 자동생성 서버.
[청구항 2]
제 1항에 있어서, 상기 추출모듈은 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 생성하기 위한 머신러닝을 수행하는 학습부; 상기 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출하는 추출부; 상기 추출된 키워드에 포함된 글자 각각에 상기 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 태깅부; 를 포함하는 것을 특징으로 하는 프로필 자동생성 서버.
[청구항 3]
제 1항에 있어서, 상기 생성모듈은 상기 추출모듈로부터 글자 각각에 태그가 부여된 프로필 예비정보를 수집하고, 연속적으로 동일한 태그가 부여된 글자를 병합하여 프로필 정보인 키워드를 생성하는 생성부; 상기 생성된 키워드가 포함되는 카테고리 또는 키워드의 태그정보에 따라 프로필 정보를 분류하는 분류부; 및 상기 분류된 키워드와 키워드의 카테고리인 태그정보를 프로필 정보 형식에 따라 디스플레이 하는 출력부; 를 포함하는 것을 특징으로 하는 프로필 자동생성서버.
[청구항 4]
제 1항에 있어서, 상기 프로필 자동생성 서버는 수집된 문서에서 키워드와 태그가 추출된 횟수를 카운팅하고, 동일인물의 프로필 정보로 동일한 키워드가 반복 추출되는 경우, 상기 추출된 키워드에 대한 신뢰도를 산출하는 연산모듈; 을 더 포함하는 것을 특징으로 하는 프로필 자동생성 서버.
[청구항 5]
제 1항에 있어서, 상기 프로필 자동생성 서버는 생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 프로필정보를 비교하여 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 상기 성명에 대한 동명이인의 프로필 정보를 생성하는 것을 특징으로 하는 프로필 자동생성 서버.
[청구항 6]
제 5항에 있어서, 상기 프로필 자동생성서버는 동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일을 비교하여, 동일인에 대한 프로필로 판단되면, 다른 카테고리의 프로필 정보를 비교하여 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 하는 것을 특징으로 하는 프로필 자동생성서버.
[청구항 7]
제 1항에 있어서, 상기 데이터베이스는 학력, 나이, 학교, 부서, 직급을 포함하는 프로필 정보의 카테고리에 따라 키워드를 분류하고, 분류된 키워드 데이터를 저장하는 키워드 저장부; 키워드 별 카테고리 또는 메타데이터를 태그정보로 생성하고, 상기 키워드를 구성하는 글자에 상기 키워드에 해당하는 카테고리 정보인 태그(tag)정보가 태깅된 글자들을 프로필 예비정보로 저장하고, 상기 태그정보를 저장하는 태그 저장부; 를 포함하는 것을 특징으로 하는 프로필 자동생성 서버.
[청구항 8]
프로필 자동생성 방법에 있어서, (A) 수집모듈은 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집하는 단계; (B) 데이터베이스는 상기 수집된 문서와 상기 문서의 출처 및 웹 공간정보를 저장하고, 상기 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장하는 단계; (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 및 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 를 포함하는 프로필 자동생성방법.
[청구항 9]
제 8항에 있어서, 상기 (C) 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 키워드를 추출하고, 키워드를 구성하는 글자 각각에 프로필 카테고리 정보인 태그정보를 태깅(tagging)하여 프로필 예비정보를 생성하는 단계; 는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 생성하기 위한 머신러닝을 수행하는 단계; 상기 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출하는 단계; 상기 추출된 키워드에 포함된 글자 각각에 상기 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 단계; 를 포함하는 것을 특징으로 하는 프로필 자동생성 방법.
[청구항 10]
제 8항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는 상기 추출모듈로부터 글자 각각에 태그가 부여된 프로필 예비정보를 수집하고, 연속적으로 동일한 태그가 부여된 글자를 병합하여 프로필 정보인 키워드를 생성하는 단계; 상기 생성된 키워드가 포함되는 카테고리 또는 키워드의 태그정보에 따라 프로필 정보를 분류하는 단계; 및 상기 분류된 키워드와 키워드의 카테고리인 태그정보를 프로필 정보 형식에 따라 디스플레이 하는 단계; 를 포함하는 것을 특징으로 하는 프로필 자동생성방법.
[청구항 11]
제 8항에 있어서, 상기 프로필 자동생성 방법은 (E) 연산모듈에서 수집된 문서에서 키워드와 태그가 추출된 횟수를 카운팅하고, 동일인물의 프로필 정보로 동일한 키워드가 반복 추출되는 경우, 상기 추출된 키워드에 대한 신뢰도를 산출하는 단계; 를 더 포함하는 것을 특징으로 하는 프로필 자동생성방법.
[청구항 12]
제 8항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는 생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 프로필정보를 비교하여 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 상기 성명에 대한 동명이인의 프로필 정보를 생성하는 것을 특징으로 하는 프로필 자동생성방법.
[청구항 13]
제 12항에 있어서, 상기 (D) 생성모듈은 추출된 프로필 예비정보를 수집하고, 연속으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성하고, 상기 키워드와 태그를 분류하여 프로필 정보를 생성하는 단계; 는 동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일을 비교하여, 동일인에 대한 프로필로 판단되면, 다른 카테고리의 프로필 정보를 비교하여 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 하는 것을 특징으로 하는 프로필 자동생성방법.

도면

[도1]

[도2]

[도3]

[도4]

[도5]

[도6]

[도7]