Processing

Please wait...

Settings

Settings

1. KR1020080026128 - GRAMMATICAL PARSING OF DOCUMENT VISUAL STRUCTURES

Office Republic of Korea
Application Number 1020077030734
Application Date 28.12.2007
Publication Number 1020080026128
Publication Date 24.03.2008
Publication Kind A
IPC
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
K
RECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
9
Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
62
Methods or arrangements for recognition using electronic means
72
using context analysis based on the provisionally recognised identity of a number of successive patterns, e.g. a word
G06F 17/20
G06K 9/72
CPC
G06K 9/726
G06F 17/271
G06K2209/01
Applicants MICROSOFT CORP.
마이크로소프트 코포레이션
Inventors VIOLA PAUL A.
비올라, 폴 에이.
SHILMAN MICHAEL
실맨, 마이클
Agents 양영준
백만기
Priority Data 11173280 01.07.2005 US
Title
(EN) GRAMMATICAL PARSING OF DOCUMENT VISUAL STRUCTURES
(KO) 문서 시각 구조의 문법 분석
Abstract
(EN)
A two-dimensional representation of a document is leveraged to extract a hierarchical structure that facilitates recognition of the document. The visual structure is grammatically parsed utilizing two-dimensional adaptations of statistical parsing algorithms. This allows recognition of layout structures (e.g., columns, authors, titles, footnotes, etc.) and the like such that structural components of the document can be accurately interpreted. Additional techniques can also be employed to facilitate document layout recognition. For example, grammatical parsing techniques that utilize machine learning, parse scoring based on image representations, boosting techniques, and/or "fast features" and the like can be employed to facilitate in document recognition. ©KIPO&WIPO 2008

(KO)
문서의 2차원 표현이 문서의 인식을 돕는 계층 구조를 추출하는 데 이용된다. 문서의 시각 구조는 통계 분석 알고리즘의 2차원 적응을 이용하여 문법적으로 분석된다. 이것은 레이아웃 구조(예를 들어, 칼럼, 저자, 타이틀, 각주 등) 등의 인식을 가능하게 하여 문서의 구조적 성분들을 정확하게 해석할 수 있게 한다. 문서 레이아웃 인식을 돕기 위해 추가적인 기술들도 이용될 수 있다. 예를 들어, 기계 학습, 이미지 표현에 기초한 분석 스코어링, 부스팅 기술, 및/또는 "패스트 피처(fast feature)" 등을 이용하는 문법 분석 기술을 이용하여 문서 인식을 도울 수 있다.