Processing

Please wait...

Settings

Settings

Goto Application

1. WO2013008979 - ENTITY-IDENTIFYING DEVICE AND METHOD USING MULTIPLE ONTOLOGIES

Document

명세서

발명의 명칭

기술분야

1   2  

배경기술

3   4   5   6   7  

발명의 상세한 설명

기술적 과제

8   9   10  

과제 해결 수단

11   12   13   14   15   16   17   18   19   20   21   22  

발명의 효과

23   24   25  

도면의 간단한 설명

26   27   28   29  

발명의 실시를 위한 형태

30   31   32   33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50   51   52   53   54   55   56   57   58   59   60   61   62   63   64   65   66   67   68   69   70   71   72   73   74   75   76   77  

산업상 이용가능성

78  

청구범위

1   2   3   4   5   6   7   8   9   10   11  

도면

1   2   3  

명세서

발명의 명칭 : 다중 온톨로지를 이용한 개체식별장치 및 방법

기술분야

[1]
본 발명은 다중 온톨로지를 이용한 개체식별장치 및 방법에 관한 것으로서, 더욱 상세하게는 신규 개체 식별자가 입력된 경우, 다중 온톨로지 데이터베이스로부터 상기 신규 개체 식별자의 속성정보를 획득하고, 상기 획득된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자를 개체 유형을 근거로 그룹화한 후, 각 개체 유형에 따른 그룹에 포함된 개체 식별자들의 대표 속성을 기준으로 상기 개체 식별자들을 다시 그룹핑하고, 상기 재 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정하는 다중 온톨로지를 이용한 개체식별장치 및 방법에 관한 것이다.
[2]

배경기술

[3]
정보의 공유 및 연계의 중요성이 부각되면서 온톨로지를 지식 표현 모델로 사용하는 웹 서비스들이 증가하고 있고, 최근 시멘틱 웹(Semantic Web)의 연구와 관련하여 온톨로지(Ontology)를 이용한 데이터 모델이 주목받고 있다.
[4]
시맨틱 웹을 이용한 응용에는 에이전트간의 자동화된 통신, 웹 서비스 자동화, 유비쿼터스 환경에서의 의미기반 검색 서비스, 이종 멀티미디어 데이터베이스로부터의 정보검색 등이 있다. 그러나, 이러한 응용들은 기본적으로 모든 에이전트들이 공통된 온톨로지를 참조한다는 것을 가정하고 있다. 만약, 이들 에이전트들이 공통의 온톨로지를 참조하고 있지 않은 상황이라면 그러한 응용은 불가능하게 된다. 즉, 시맨틱 웹은 기존의 웹과 마찬가지로 분산되어 있고 이질적인 특징을 가지기 때문에 모든 에이전트들이 공통의 온톨로지를 참조한다고 가정하기가 어렵다.
[5]
예를 들어, 한 에이전트는 사람이 사는 집의 주소를 “address”라고 기술한 온톨로지를 참조하고 있고, 다른 에이전트는 그것을 “postal_address”라고 기술한 온톨로지를 참고하고 있다면 동일한 것을 서로 다르게 표현하게 되어 두 에이전트간에 통신이 불가능하게 된다.
[6]
또한, 시맨틱 웹 데이터의 연계·활용을 위해서 필요한 URI의 정합성을 확보하기 위한 기존 연구들은 개체 식별의 유형이 제한적이고, 점진적으로 추가되는 온톨로지의 실시간 개체 식별을 효과적으로 지원하지 못하며, 개체 식별 관계에 포함된 오류를 그대로 활용하는 등의 한계를 가지고 있다.
[7]

발명의 상세한 설명

기술적 과제

[8]
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 Linked Data에 포함된 다중 온톨로지의 속성 정보를 이용하여 다양한 유형의 개체들을 점진적으로 식별할 수 있는 다중 온톨로지를 이용한 개체식별장치 및 방법을 제공하는데 있다.
[9]
본 발명의 다른 목적은 다중 온톨로지의 속성 정보를 이용하여 온톨로지들을 동일 유형과 개체로 그룹화하고, 그룹별 주요 속성 비교를 통해 개체를 식별함으로써 동일 개체 식별의 정확도를 향상하는 것은 물론, 외부 서비스와 비교를 통해 추가된 URI만을 대상으로 점진적 개체 식별 기능을 지원할 수 있는 다중 온톨로지를 이용한 개체식별장치 및 방법을 제공하는데 있다.
[10]

과제 해결 수단

[11]
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 각 개체에 대한 개체 식별결과가 트리플 형태로 저장된 트리플 저장부, 신규 개체 식별자가 입력된 경우, 다중 온톨로지 데이터베이스로부터 상기 신규 개체 식별자의 속성정보를 획득하는 속성정보 수집부, 상기 획득된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자를 개체 유형을 근거로 그룹화하는 제1 그룹화부, 각 개체 유형에 따른 그룹에 포함된 개체 식별자들의 대표 속성을 기준으로 상기 개체 식별자들을 다시 그룹핑하는 제2 그룹화부, 상기 제2 그룹화부에서 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정하는 개체 식별자 그룹 결정부를 포함하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치가 제공된다.
[12]
상기 개체식별장치는 상기 신규 개체 식별자에 대한 개체 식별자 그룹을 결정하는 과정을 반복하여 상기 개체 식별자 그룹 결정부에서 결정된 개체 식별자 그룹에 대한 검증을 수행하는 검증부를 더 포함할 수 있다.
[13]
상기 트리플 저장모듈에는 각 개체에 대한 개체 식별자 그룹 요약 정보, 편집된 개체 식별자 그룹 요약 정보가 저장된다.
[14]
상기 제2 그룹화부는 기 저장된 속성정보 테이블에서 동일 속성 매핑 정보와 대표 속성을 개체 유형별로 로딩하고, 각 개체 식별자들의 대표 속성을 기준으로 상기 개체 유형에 따른 그룹들을 다시 그룹핑한다.
[15]
또한, 상기 제2 그룹화부는 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 구하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑한다.
[16]
상기 개체 식별자 그룹 결정부는 각 그룹내 개체들의 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 모든 개체들의 연관 속성값 중에서 같은 속성값을 가지는 개체 식별자가 있는지 확인하여, 같은 속성값을 가지는 개체 식별자가 있는 경우, 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만든다.
[17]
본 발명의 다른 측면에 따르면, 개체식별장치가 개체를 식별하는 방법에 있어서, (a)신규 개체 식별자가 입력된 경우, 다중 온톨로지 데이터베이스로부터 상기 신규 개체 식별자의 속성정보를 획득하는 단계, (b)상기 획득된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자를 개체 유형을 근거로 그룹화하는 단계, (c )각 개체 유형에 따른 그룹에 포함된 개체 식별자들의 대표 속성을 기준으로 상기 개체 식별자들을 다시 그룹핑하는 단계, (d)상기 재 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정하는 단계를 포함하는 다중 온톨로지를 이용한 개체식별 방법이 제공된다.
[18]
상기 다중 온톨로지를 이용한 개체식별 방법은 상기 (d) 단계 이후 상기 신규 개체 식별자에 대한 개체 식별자 그룹을 결정하는 과정을 반복하여 상기 개체 식별자 그룹 결정부에서 결정된 개체 식별자 그룹에 대한 검증을 수행하는 단계를 더 포함할 수 있다.
[19]
상기 (c )단계는, 기 저장된 속성정보 테이블에서 동일 속성 매핑 정보와 대표 속성을 상기 개체 유형별로 로딩하고, 각 개체 식별자들의 대표 속성을 기준으로 상기 개체 유형에 따른 그룹들을 다시 그룹핑한다.
[20]
또한, 상기 (c) 단계는, 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 구하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑한다.
[21]
상기 (d) 단계는 각 그룹내 개체들의 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 모든 개체들의 연관 속성값 중에서 같은 속성값을 가지는 개체 식별자가 있는지 확인하여, 같은 속성값을 가지는 개체 식별자가 있는 경우, 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만든다.
[22]

발명의 효과

[23]
상술한 바와 같이 본 발명에 따르면, Linked Data에 포함된 다중 온톨로지의 속성 정보를 이용하여 다양한 유형의 개체들을 점진적으로 식별할 수 있다.
[24]
또한, 다중 온톨로지의 속성 정보를 이용하여 온톨로지들을 동일 유형과 개체로 그룹화하고, 그룹별 주요 속성 비교를 통해 개체를 식별함으로써 동일 개체 식별의 정확도를 향상하는 것은 물론, 외부 서비스와 비교를 통해 추가된 URI만을 대상으로 점진적 개체 식별 기능을 지원할 수 있다.
[25]

도면의 간단한 설명

[26]
도 1은 본 발명에 따른 다중 온톨로지를 이용한 개체식별 시스템을 나타낸 도면.
[27]
도 2는 본 발명에 따른 개체식별장치의 구성을 개략적으로 나타낸 블럭도.
[28]
도 3은 본 발명에 따른 개체식별장치가 개체를 식별하는 방법을 나타낸 흐름도.
[29]

발명의 실시를 위한 형태

[30]
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
[31]
먼저 본 발명에서 이용되는 용어에 대하여 살펴보기로 한다.
[32]
Linked Data는 차세대 웹의 가장 핵심이 되는 데이터 네트워크를 위한 운동이며, 실천강령이다. 웹에서 자유롭게 데이터를 개방하여 연계할 수 있도록 하고, 이들 데이터가 다시 협업할 수 있게 하여 진정한 데이터 웹을 실현하고자 하는 것이다. 때문에 웹에서의 데이터 유통을 위한 HTTP(hypertext transfer protocol)를 사용하고, 연계 및 접근성을 보장하기 위한 RDF(Resource Description Framework와 SPARQL(Simple Protocol and RDF Query Language)를 사용한다. 상기 SPARQL은 온톨로지에 포함된 정보를 질의하기 위해 사용되는 표준 질의 언어로 DBMS(database management system)의 SQL(structured query language)와 유사한 기능을 수행한다.
[33]
또한, Linked Data는 특정 개념을 URI(Uniform Resource Identifier)로 명명하고, HTTP를 통해 URI로 명명된 리소스에 접근할 수 있으며, URI에 접근했을 때 RDF 기반의 URI가 포함하고 있는 상세 정보를 제공하고, RDF에 포함되어 있는 또 다른 관련 있는 개념으로 접근할 수 있도록 한다.
[34]
URI는 클래스와 속성, 개체들에 대한 식별자로서 웹을 통해 정보자원을 공유하기 위해서 웹 상의 유일한 주소로 매핑되어 사용된다. 즉, URL를 통해 클래스나 속성, 개체의 정보에 접근하기 위해 사용되는 인터넷 주소이자 식별자를 말한다. 상기 URI는 개체 식별자라는 용어로 이용된다.
[35]
온톨로지는 특정 분야의 관련된 문서로부터 온톨로지에 구축할 온톨로지의 구성 요소 즉, 개념, 개념의 속성, 개념 간 연결 관계 등에 관한 지식을 얻어 개념과 속성을 정의하고 개념과 개념의 관계를 설정하여 구축된다. 시맨틱 웹에서는 개념이 URI로 표현된다. 예를 들어, "Person" 클래스의 경우 온톨로지에서는 "http://www.etri.re.kr/example#Person"과 같은 URI로 표현된다.
[36]
"Person" 클래스는 name, age, birthplace 등의 속성을 가진다. "name" 속성은 그 값으로 문자열(string)을 가질 수 있고, "age" 속성은 그 값으로 정수 (integer)를 가질 수 있고, "birthplace" 속성은 그 값으로 "Location"의 인스턴스를 가질 수 있다.
[37]
개체 식별은 온톨로지를 구성하는 클래스, 속성, 개체들이 상호 연계되도록 하기 위해 URI에 대한 관계를 명확하게 설정하는 것을 말한다. 예를 들어, A 온톨로지의 A-1 개체가 B 온톨로지의 B-1개체와 동일한 경우 A-1 개체와 B-1 개체가 동일한 관계임을 명시함으로써 A-1과 B-1을 관련 속성들을 병합할 수 있도록 한다.
[38]
[39]
도 1은 본 발명에 따른 다중 온톨로지를 이용한 개체식별 시스템을 나타낸 도면이다.
[40]
도 1을 참조하면, 다중 온톨로지를 이용한 개체식별 시스템은 각 개체에 대한 속성정보가 온톨로지로 저장된 다중 온톨로지 데이터베이스(300a,..., 300n, 이하 300이라 칭함), 특정 URI와 연관된 개체(URI)들에 대한 관계를 설정하는 개체식별을 수행하는 개체식별장치(100)를 포함한다.
[41]
상기 다중 온톨로지 데이터베이스(300)는 Sindice.com 서비스, sameAs.org 서비스 등과 같은 서비스를 제공하는 서버일 수 있다. 여기서, 상기 Sindice.com 서비스는 시맨틱 웹 검색엔진으로 다양한 형식의 온톨로지를 실시간으로 계속 수집한 후, 개체명이 입력되면 해당 개체명이 나타난 URI와 관련 온톨로지를 검색 결과로 제공하는 서비스를 말한다.
[42]
상기 sameAs.org 서비스는 다양한 온톨로지에서 수집된 동일 개체 관계를 표현하는 URI들을 수집해서 개체명이나 URI를 검색하는 경우 미리 식별된 결과를 그룹화해서 제공하는 서비스를 말한다.
[43]
상기 개체식별장치(100)는 개체식별이 필요한 신규 개체 식별자가 입력된 경우 상기 다중 온톨로지 데이터베이스로부터 식별대상 개체의 속성정보를 획득 및 비교하여 개체들을 식별한다.
[44]
즉, 상기 개체식별장치(100)는 식별대상이 되는 개체식별자 목록을 대상으로 개체의 속성정보가 포함된 다중 온톨로지로부터 상기 개체식별자 목록에 포함된 개체식별자들의 속성정보를 획득 및 비교하여 개체 식별을 수행하고, 상기 개체식별에 대한 최종 결과로 개체 식별자 그룹을 생성한다.
[45]
또한, 상기 개체식별장치(100)는 Linked Data에 포함된 다중 온톨로지 데이터베이스(300)로부터의 속성 정보를 이용하여 다양한 유형의 개체들을 점진적으로 식별한다.
[46]
또한, 상기 개체식별장치(100)는 SPARQL endpoint를 통해서 상기 다중 온톨로지 데이터베이스(300)로부터 상기 신규 개체 식별자의 속성정보를 수집하고, 상기 신규 개체 식별자의 속성정보와 상기 트리플 저장모듈로부터 획득된 식별결과를 이용하여 개체 식별을 수행한다. 여기서, 상기 SPARQL endpoint는 상기 다중 온톨로지 데이터베이스(300)에 접근할 수 있도록 하는 서비스 접점을 말하고, 웹서비스를 통해 해당 온톨로지 정보를 RDF나 기타 다양한 형식으로 제공한다.
[47]
상기와 같은 역할을 수행하는 개체식별장치(100)에 대한 상세한 설명은 도 2를 참조하기로 한다.
[48]
[49]
도 2는 본 발명에 따른 개체식별장치의 구성을 개략적으로 나타낸 블럭도이다.
[50]
도 2를 참조하면, 개체식별장치(100)는 다중 온톨로지 데이터베이스와의 통신을 위한 통신부(110), 사용자로부터 질의어를 입력받는 사용자 인터페이스부(120), 트리플 저장부(130), 속성정보 수집부(151), 제1 그룹화부(152), 제2 그룹화부(153), 개체 식별자 그룹 결정부(154), 검증부(155)를 포함한다.
[51]
상기 트리플 저장부(130)에는 각 개체에 대한 개체 식별결과가 트리플 형태로 저장되어 있다. 즉, 상기 트리플 저장부(130)에는 각 개체에 대한 개체 식별자 그룹 요약 정보, 편집된 개체 식별자 그룹 요약 정보가 저장되어 있다. 상기 개체 식별자 그룹 요약 정보는 각 개체 식별자 그룹에 대한 개체 개수, 개체 유형, 대표 개체명, 대표 개체 식별자 등을 포함한다.
[52]
또한, 상기 트리플 저장부(130)에는 개체 유형에 대한 정보와 유형별 대표 속성값, 함께 고려해야 할 하부 속성이 온톨로지 형태로 저장되어 있다. 즉, 트리플 저장부(130)에는 다중 온톨로지 정보 중 개체 식별에 필요한 정보와 식별결과만 저장되고, 다른 정보들은 다중 온톨로지 데이터베이스에 실시간으로 접근해서 획득하게 된다.
[53]
상기 속성정보 수집부(151)는 신규 개체 식별자의 속성정보를 상기 다중 온톨로지 데이터베이스로부터 수집한다. 예를 들면, 신규 개체 식별자가 "홍길동"에 대한 URI인 경우, 상기 속성정보 수집부(151)는 상기 다중 온톨로지 데이터베이스로부터 홍길동에 대한 나이, 직업, 출생지, e-mail 주소 등의 속성정보를 수집한다.
[54]
상기 제1 그룹화부(152)는 상기 속성정보 수집부(151)에서 수집된 속성정보 중에서 유형을 나타내는 속성을 이용하여 개체 유형에 따라 상기 신규 개체 식별자를 그룹화한다. 즉, 상기 제1 그룹화부(152)는 상기 수집된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자의 개체 유형을 판단하고, 상기 질의어에 대한 개체 식별자 그룹 중에서 상기 신규 개체 식별자의 유형에 해당하는 그룹을 선택하여 상기 신규 개체 식별자의 그룹으로 할당한다.
[55]
상기 제2 그룹화부(153)는 기 저장된 속성정보 테이블에서 상기 개체 유형에 따른 그룹별로 동일 속성 매핑 정보와 대표 속성을 로딩하고, 각 개체들의 대표 속성을 기준으로 상기 개체 유형에 따른 그룹들을 다시 그룹핑한다. 즉, 상기 제2 그룹화부(153)는 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 계산하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑한다. 예를 들면, 사람의 경우 대표 속성은 인명이므로, 인명에 해당하는 문자열의 유사도를 계산하고, 그 계산된 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 만든다.
[56]
상기 개체 식별자 그룹 결정부(154)는 상기 제2 그룹화부(153)에서 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 상기 다중 온톨로지 데이터베이스로부터 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정한다. 즉, 상기 개체 식별자 그룹 결정부(154)는 각 그룹내 개체들의 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 모든 개체들의 연관 속성값 중에서 같은 속성값을 가지는 개체 식별자가 있는지 확인하여, 같은 속성값을 가지는 개체 식별자가 있는 경우, 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만든다. 이때, 같은 속성값을 가지는 개체 식별자가 없는 경우에는 상기 제2 그룹화부(153)에서 그룹핑된 그룹을 유지한다.
[57]
예를 들어, "홍길동"이라는 대표 속성값을 가지는 개체 식별자(URI)의 경우, 상기 개체 식별자 그룹 결정부(154)는 상기 다중 온톨로지 데이터베이스로부터 "홍길동"에 대한 연관 속성값인 "직장", "e-mail 주소"를 획득하고, 상기 연관 속성값인 "직장" 및 "e-mail 주소"가 같은 홍길동은 같은 그룹으로 만든다. 상기와 같은 방법에 의해 상기 개체 식별자 그룹 결정부(154)는 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만들 수 있다.
[58]
상기 검증부(155)는 신규 개체 식별자에 대한 개체 식별자 그룹을 결정하는 과정을 반복하여 상기 개체 식별자 그룹 결정부(154)에서 결정된 개체 식별자 그룹에 대한 검증을 수행한다.
[59]
[60]
도 3은 본 발명에 따른 개체식별장치가 개체를 식별하는 방법을 나타낸 흐름도이다.
[61]
도 3을 참조하면, 개체식별장치는 다중 온톨로지 데이터베이스로부터 식별 대상인 신규 개체 식별자의 속성정보를 획득하고(S302), 상기 획득된 속성정보에서 유형을 나타내는 속성을 이용하여 개체 유형에 따라 상기 신규 개체 식별자에 그룹을 할당한다(S304). 즉, 상기 개체식별장치는 상기 신규 개체 식별자의 속성 정보 중 rdf:type 또는 명시적 유형의 클래스와의 상하위 관계를 통해 개체의 유형을 구분할 수 있는 속성을 확인하고, 상기 확인된 개체 유형에 상기 신규 개체 식별자를 할당한다.
[62]
예를 들어 표1을 참조하면, foaf:person의 하위 클래스가 존재하는 경우, 해당 하위 클래스는 인명을 의미하는 클래스로 판단할 수 있다. 즉, A 온톨로지에 속한 1번 클래스인 kisti:person이 foaf:person의 하위 클래스인 경우, 상기 개체식별장치는 kisti:person이 사람에 해당하는 개체 유형임을 식별하고 저장함으로써 추후 개체의 유형 판단에 사용한다.
[63]
표 1 [표1]
kisti:person rdf:type Identity:Person
foaf:person rdf:type Identity:Person
kisti:institution rdf:type Identity:Institution

[64]
상기 S304가 수행되면, 상기 개체식별장치는 속성정보 테이블에서 상기 개체 유형에 따라 그룹핑된 각 그룹에 대한 동일 속성 매핑 정보와 대표 속성을 로딩한다(S306). 즉, 상기 개체식별장치는 식별 대상 개체의 유형에 따라 식별에 사용할 다중 온톨로지의 속성 간 동일 속성 매핑 정보(예를 들면, kisti:hasCreator와 foaf:maker는 동일 속성임)와 대표 속성(예를 들면, 사람의 대표 속성은 foaf 온톨로지에서는 “foaf:name" 속성임)을 로딩한다.
[65]
상기 S306이 수행되면, 상기 개체식별장치는 상기 개체 유형별로 그룹화된 그룹들을 대표 속성을 기준으로 다시 그룹화한다(S308). 즉, 상기 개체식별장치는 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 계산하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑한다.
[66]
예를 들면, 사람의 경우 인명을, 회사의 경우 회사명을 대상으로 유사도를 계산하고, 그 계산 결과를 이용하여 그룹핑한다. 이 경우 비교적 단문의 문자열 비교에 적합한 Jaro Winkler Distance 문자열 비교 방법을 사용한다.
[67]
또한, 상기 개체식별장치는 대표 속성명을 미리 정해진 규칙에 따라 일정한 형식으로 만든 후, 유사도 계산을 통해 그룹핑하게 된다. 예를 들면, 인명의 경우, First Name, Middle Name, Last Name을 고려하여 문자열 비교를 통해 유사도를 계산한다.
[68]
또한, 기관명의 경우 ".inc", "co", "INC" 등의 표기명을 고려해서 문자열 비교를 통해 유사도를 계산한다.
[69]
상기 S308의 수행 후, 상기 개체식별장치는 각 그룹에 속하는 개체 식별자들의 연관 속성값을 상기 다중 온톨로지 데이터베이스로부터 획득하여 비교하고, 그 비교결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정한다(S310).
[70]
즉, 상기 개체식별장치는 각 그룹에 속하는 개체 식별자에 대한 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 같은 연관 속성값을 가지는 개체 식별자들이 존재하는지 확인한다. 상기 확인결과 같은 연관 속성값을 가지는 개체 식별자들이 존재하는 경우, 상기 개체식별장치는 같은 속성값을 가지는 개체 식별자들을 묶어 서브 그룹으로 나누어 개체 식별자 그룹을 결정한다.
[71]
이 과정을 통해 상기 개체식별장치는 이전 개체 유형이나 개체명을 기준으로 개체 식별자를 그룹화하는 과정에서 다른 그룹으로 분류된 개체 식별자간 매핑이나 같은 그룹이지만 매핑 속성이 없는 개체 식별자들을 확인하게 된다.
[72]
즉, 대표 속성이 다른 그룹에 속한 개체 식별자 1, 2가 같은 연관 속성값 A로 매핑되어 있을 경우, 상기 개체식별장치는 A의 연관 속성값을 획득하여 개체 식별자 1, 2가 모두 A의 연관 속성으로 포함되어 있는지를 확인한다.
[73]
예를 들어, 개체 식별자 1, 2는 다른 저자명이지만, 모두 A논문의 저자 관계를 가지고 있을 경우, 상기 개체식별장치는 A논문의 연관속성을 수집하여 개체 식별자 1, 2가 모두 저자관계로 연결되어 있는지 확인한다.
[74]
상기 S310이 수행되면, 상기 개체식별장치는 상기 S502부터 상기 S510을 반복 수행하여 개체식별결과를 검증하고, 개체 식별자 그룹을 최종으로 확정한다(S312).
[75]
[76]
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
[77]

산업상 이용가능성

[78]
이상과 같이 본 발명의 다중 온톨로지를 이용한 개체식별장치 및 방법은 Linked Data에 포함된 다중 온톨로지의 속성 정보를 이용하여 다양한 유형의 개체들을 점진적으로 식별할 필요성이 높은 것에 적합하다.

청구범위

[청구항 1]
각 개체에 대한 개체 식별결과가 트리플 형태로 저장된 트리플 저장부; 신규 개체 식별자가 입력된 경우, 다중 온톨로지 데이터베이스로부터 상기 신규 개체 식별자의 속성정보를 획득하는 속성정보 수집부; 상기 획득된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자를 개체 유형을 근거로 그룹화하는 제1 그룹화부; 각 개체 유형에 따른 그룹에 포함된 개체 식별자들의 대표 속성을 기준으로 상기 개체 식별자들을 다시 그룹핑하는 제2 그룹화부; 및 상기 제2 그룹화부에서 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정하는 개체 식별자 그룹 결정부; 를 포함하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 2]
제1항에 있어서, 상기 신규 개체 식별자에 대한 개체 식별자 그룹을 결정하는 과정을 반복하여 상기 개체 식별자 그룹 결정부에서 결정된 개체 식별자 그룹에 대한 검증을 수행하는 검증부를 더 포함하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 3]
제1항에 있어서, 상기 트리플 저장모듈에는 각 개체에 대한 개체 식별자 그룹 요약 정보, 편집된 개체 식별자 그룹 요약 정보가 저장된 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 4]
제1항에 있어서, 상기 제2 그룹화부는 기 저장된 속성정보 테이블에서 동일 속성 매핑 정보와 대표 속성을 개체 유형별로 로딩하고, 각 개체 식별자들의 대표 속성을 기준으로 상기 개체 유형에 따른 그룹들을 다시 그룹핑하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 5]
제4항에 있어서, 상기 제2 그룹화부는 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 구하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 6]
제1항에 있어서, 상기 개체 식별자 그룹 결정부는, 각 그룹내 개체들의 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 모든 개체들의 연관 속성값 중에서 같은 속성값을 가지는 개체 식별자가 있는지 확인하여, 같은 속성값을 가지는 개체 식별자가 있는 경우, 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만드는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별장치.
[청구항 7]
개체식별장치가 개체를 식별하는 방법에 있어서, (a)신규 개체 식별자가 입력된 경우, 다중 온톨로지 데이터베이스로부터 상기 신규 개체 식별자의 속성정보를 획득하는 단계; (b)상기 획득된 속성정보 중에서 유형을 나타내는 속성을 이용하여 상기 신규 개체 식별자를 개체 유형을 근거로 그룹화하는 단계; (c )각 개체 유형에 따른 그룹에 포함된 개체 식별자들의 대표 속성을 기준으로 상기 개체 식별자들을 다시 그룹핑하는 단계; 및 (d)상기 재 그룹핑된 각 그룹의 개체들에 대한 연관 속성값을 획득 및 비교하고, 상기 비교 결과를 근거로 상기 각 그룹을 서브 그룹으로 나누어 개체 식별자 그룹을 결정하는 단계; 를 포함하는 다중 온톨로지를 이용한 개체식별 방법.
[청구항 8]
제7항에 있어서, 상기 (d) 단계 이후, 상기 신규 개체 식별자에 대한 개체 식별자 그룹을 결정하는 과정을 반복하여 상기 개체 식별자 그룹 결정부에서 결정된 개체 식별자 그룹에 대한 검증을 수행하는 단계를 더 포함하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별 방법.
[청구항 9]
제7항에 있어서, 상기 (c )단계는, 기 저장된 속성정보 테이블에서 동일 속성 매핑 정보와 대표 속성을 상기 개체 유형별로 로딩하고, 각 개체 식별자들의 대표 속성을 기준으로 상기 개체 유형에 따른 그룹들을 다시 그룹핑하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별 방법.
[청구항 10]
제9항에 있어서, 상기 (c) 단계는, 개체 유형별 개체 식별자의 대표 속성명을 기준으로 속성값에 해당하는 문자열의 유사도를 구하고, 상기 구해진 유사도가 일정 임계값 이상을 가지는 개체 식별자들을 동일 그룹으로 그룹핑하는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별 방법.
[청구항 11]
제7항에 있어서, 상기 (d) 단계는, 각 그룹내 개체들의 연관 속성값을 상기 다중 온톨로지 데이터베이스에서 획득하고, 모든 개체들의 연관 속성값 중에서 같은 속성값을 가지는 개체 식별자가 있는지 확인하여, 같은 속성값을 가지는 개체 식별자가 있는 경우, 같은 속성값을 가지는 개체 식별자들을 묶어서 서브 그룹으로 만드는 것을 특징으로 하는 다중 온톨로지를 이용한 개체식별 방법.

도면

[도1]

[도2]

[도3]