WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2011019370) INTERACTIVE USER INTERFACE FOR CONVERTING UNSTRUCTURED DOCUMENTS
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2011/019370    International Application No.:    PCT/US2010/002180
Publication Date: 17.02.2011 International Filing Date: 06.08.2010
IPC:
G06F 17/21 (2006.01), G06F 17/27 (2006.01)
Applicants: COMPSCI RESOURCES, LLC [US/US]; 5400 Shawnee Road, Suite 300 Alexandria, VA 22312 (US) (For All Designated States Except US).
SUMMERS, Nathan [US/US]; (US) (For US Only).
RUSH, Shawn [US/US]; (US) (For US Only).
ANDREASSI, James [US/US]; (US) (For US Only)
Inventors: SUMMERS, Nathan; (US).
RUSH, Shawn; (US).
ANDREASSI, James; (US)
Agent: LABARRE, James, A.; Buchanan Ingersoll & Rooney P.C. P. O. Box 1404 Alexandria, VA 22314-1404 (US)
Priority Data:
12/538,343 11.08.2009 US
Title (EN) INTERACTIVE USER INTERFACE FOR CONVERTING UNSTRUCTURED DOCUMENTS
(FR) INTERFACE UTILISATEUR INTERACTIVE PERMETTANT DE CONVERTIR DES DOCUMENTS NON STRUCTURÉS
Abstract: front page image
(EN)An interactive interface facilitates the conversion of unstructured documents into XML-compliant documents. A document is parsed to identify fact items in the content of the document. A classifier associates initial labels with an identified fact items, and the fact items and associated initial labels are forwarded to a user for review and correction. An interface executing on a client computer presents the initial labels associated with fact items, and enables a user to correct the labels associated with the identified fact items. Upon receipt of corrected labels from the user, the classifier is trained to update probable associations of labels and fact items in accordance with the corrected labels. The interface enables the user to enter new labels and/or concepts for a taxonomy, and an extension to the taxonomy is automatically generated.
(FR)L'invention concerne une interface interactive qui facilite la conversion de documents non structurés en documents conformes XML. Un document est analysé pour identifier des éléments de données dans le contenu du document. Un classifieur associe des étiquettes initiales à un élément de données identifié, et les éléments de données et les étiquettes initiales associées sont envoyés à un utilisateur pour être révisés et corrigés. Une interface s'exécutant sur un ordinateur client présente les étiquettes initiales associées aux éléments de données, et permet à un utilisateur de corriger les étiquettes associées aux éléments de données identifiés. Lors de la réception des étiquettes corrigées par l'utilisateur, le classifieur est instruit pour mettre à jour des associations probables d'étiquettes et d'éléments de données selon les étiquettes corrigées. L'interface permet à l'utilisateur d'entrer de nouvelles étiquettes et/ou de nouveaux concepts pour une taxinomie, et une extension de la taxinomie est automatiquement générée.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PE, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)