Processing

Please wait...

Settings

Settings

Goto Application

1. KR1020070084004 - KEYWORD EXTRACTING DEVICE

Office
Republic of Korea
Application Number 1020077010276
Application Date 04.05.2007
Publication Number 1020070084004
Publication Date 24.08.2007
Publication Kind A
IPC
G06F 17/30
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
FELECTRIC DIGITAL DATA PROCESSING
17Digital computing or data processing equipment or methods, specially adapted for specific functions
30Information retrieval; Database structures therefor
CPC
G06F 17/30616
Applicants INTELLECTUAL PROPERTY BANK CORP.
가부시키가이샤 아이.피.비.
Inventors MASUYAMA HIROAKI
마수야마 히로아키
SATO HARUTADA
사토 하루타다
ASADA MAKOTO
아사다 마코토
HASUKO KAZUMI
하수코 카주미
HOTTA HIDEAKI
홋타 히데아키
Agents 하상구
하영욱
Priority Data JP-P-2004-00322924 05.11.2004 JP
Title
(EN) KEYWORD EXTRACTING DEVICE
(KO) 키워드 추출 장치
Abstract
(EN)

A keyword extracting device comprises high-frequency word extracting means (30) for extracting high-frequency words which are index words having great weights and containing the level of the frequency in a document group (E) consisting of documents (D) in the evaluation from the index words (w) contained in the document group (E), clustering means (50) clustering the high-frequency words according to the cooccurrence degree C based on the presence/absence of occurrence in units of one document with the index words (w) in the document group (E), score calculating means (70) for calculating the score key (w) of each index word (w) while highly estimating index words (w), out of the index words (w), which coocurs with the high-frequency word belonging to more clusters (g) and with the high-frequency words in more documents (D), and keyword extracting means (90) for extracting keywords according to the score. With this, keywords indicating the feature of a document group consisting of documents can be automatically extracted.

© KIPO & WIPO 2007


(KO) 키워드 추출 장치는 복수의 문서 D로 이루어지는 문서군 E에 포함되는 색인어 w 중 상기 문서군 E에 있어서의 출현 빈도의 높음을 평가에 포함하는 웨이트가 큰 색인어인 고빈도어를 추출하는 고빈도어 추출 수단(30)과, 상기 고빈도어를 상기 문서군 E에 있어서의 상기 색인어 w의 각각과의 문서 단위에서의 공기 유무에 기초하는 공기도 c에 기초하여 클러스터링하는 클러스터링 수단(50)과, 상기 색인어 w 중 보다 많은 클러스터 g에 속하는 고빈도어와 공기하며 또한 보다 많은 문서 D에 있어서 상기 고빈도어와 공기하는 것을 보다 높게 평가한 스코어 key(w)를 개개의 색인어 w에 대해서 산출하는 스코어 산출 수단(70)과, 상기 스코어에 기초하여 키워드를 추출하는 키워드 추출 수단(90)을 구비한다. 이것에 의해 복수의 문서로 이루어지는 문서군의 특징을 나타내는 키워드를 자동 추출한다.