WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO1999014708) AUTOMATIC LANGUAGE IDENTIFICATION SYSTEM FOR MULTILINGUAL OPTICAL CHARACTER RECOGNITION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/1999/014708    International Application No.:    PCT/US1997/018705
Publication Date: 25.03.1999 International Filing Date: 20.11.1997
Chapter 2 Demand Filed:    06.04.1999    
IPC:
G06K 9/68 (2006.01)
Applicants: CAERE CORPORATION [US/US]; 100 Cooper Court, Los Gatos, CA 95030 (US)
Inventors: PON, Leonard, K.; (US).
KANUNGO, Tapas; (US).
YANG, Jun; (US).
CHOY, Kenneth, Chan; (US).
BOKSER, Mindy, R.; (US)
Agent: PETERSON, James, W.; Burns, Doane, Swecker & Mathis, L.L.P., P.O. Box 1404, Alexandria, VA 22313-1404 (US).
BURNS, DOANE, SWECKER & MATHIS, L.L.P.; P.O. Box 1404, Alexandria, VA 22313-1404 (US)
Priority Data:
08/929,788 15.09.1997 US
Title (EN) AUTOMATIC LANGUAGE IDENTIFICATION SYSTEM FOR MULTILINGUAL OPTICAL CHARACTER RECOGNITION
(FR) SYSTEME D'IDENTIFICATION AUTOMATIQUE DE LANGUES POUR LA RECONNAISSANCE DE CARACTERES OPTIQUES MULTILINGUES
Abstract: front page image
(EN)The disclosed invention utilizes a dictionary-based approach to identify languages within different zones in a multi-lingual document. As a first step, a document image is segmented into various zones, regions and word tokens, using suitable geometric propertis. Within each zone, the word tokens are compared to dictionaries associated with various candidate languages, and the language that exhibits the highest confidence factor is initially identified as the langage of the zone. Subsequently, each zone is further split into regions. The language for each region is then identified, using the confidence factors for the words of that region. For any language determination having a low confidence value, the previously determined language of the zone is employed to assist the identification process.
(FR)Selon cette invention, on utilise une voie de recherche basée sur des dictionnaires pour identifier des langues dans différentes zones d'un document multilingue. A la première étape, une image du document est segmentée en différentes zones, régions et mots symboles par des propriétés géométriques appropriées. Dans chaque zone, les mots symboles sont comparés aux dictionnaires associés à différentes langues candidates, et la langue qui présente le facteur de certitude le plus élevé est d'abord identifiée comme la langue de la zone. Ensuite, chaque zone est également divisée en régions. La langue de chaque région est alors identifiée à l'aide des facteurs de certitude pour les mots de cette région. Pour toute détermination de langue ayant une valeur de certitude faible, la langue de la zone précédemment déterminée est utilisée pour faciliter le processus d'identification.
Designated States: AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, CA, CH, CN, CU, CZ, DE, DK, EE, ES, FI, GB, GE, GH, HU, ID, IL, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, UA, UG, UZ, VN, YU, ZW.
African Regional Intellectual Property Organization (GH, KE, LS, MW, SD, SZ, UG, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, CH, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)