WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2007022460) POST-OCR IMAGE SEGMENTATION INTO SPATIALLY SEPARATED TEXT ZONES
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2007/022460    International Application No.:    PCT/US2006/032483
Publication Date: 22.02.2007 International Filing Date: 18.08.2006
IPC:
G06K 9/00 (2006.01), G06K 9/18 (2006.01), G06K 9/48 (2006.01)
Applicants: DIGITAL BUSINESS PROCESSES, INC. [US/US]; 3401 Market Street, Suite 120, Philadelphia, PA 19104 (US) (For All Designated States Except US).
ROMANOFF, Harris; (US) (For US Only).
SPERO, Leslie; (US) (For US Only).
SINGH, Sarabjit; (IN) (For US Only)
Inventors: ROMANOFF, Harris; (US).
SPERO, Leslie; (US).
SINGH, Sarabjit; (IN)
Agent: RUDOLER, Stuart; 2 BALA PLAZA, Suite 300, Bala Cynwyd, PA 19004 (US)
Priority Data:
60/709,302 18.08.2005 US
Title (EN) POST-OCR IMAGE SEGMENTATION INTO SPATIALLY SEPARATED TEXT ZONES
(FR) SEGMENTATION D'IMAGE POST-OCERISATION EN ZONES DE TEXTE SEPAREES SPATIALEMENT
Abstract: front page image
(EN)This invention describes a post-recognition procedure to group text recognized by an Optical Character Reader (OCR) from a document image into zones. Once the recognized text and the corresponding word bounding boxes for each word of the text are received, the procedure described dilates (expands) these word bounding boxes by a factor and records those which cross. Two word bounding boxes will cross upon dilation if the corresponding words are very close to each other on the original document. The text is then grouped into zones using the rule that two words will belong to the same zone if their word bounding boxes cross upon dilation. The text zones thus identified are sorted and returned.
(FR)L'invention concerne un procédé post-reconnaissance visant à grouper en zones du texte ayant été reconnu par un lecteur optique de caractères (OCR) à partir d'une image de document. Après reconnaissance du texte et réception de boîtes correspondantes de délimitation de mots, pour chaque mot du texte, le procédé comporte les étapes consistant à: agrandir ces boîtes selon un facteur donné, et enregistrer celles qui se recoupent. Deux boîtes de délimitation de mots se recoupent, une fois agrandies, si les mots correspondants sont très proches sur le document original. Le texte est ensuite groupé en zones au moyen de la règle suivante: deux mots appartiennent à la même zone si leurs boîtes se recoupent après agrandissement. Les zones de texte ainsi identifiées sont triées et renvoyées.
Designated States: AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LV, LY, MA, MD, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IS, IT, LT, LU, LV, MC, NL, PL, PT, RO, SE, SI, SK, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)