WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2003014966) DISPOSITIF D'EXTRACTION D'INFORMATIONS D'UN DOCUMENT FORMATE ET PROCEDE CORRESPONDANT
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2003/014966    N° de la demande internationale :    PCT/JP2002/007983
Date de publication : 20.02.2003 Date de dépôt international : 05.08.2002
CIB :
G06F 17/27 (2006.01)
Déposants : FUJITSU LIMITED [JP/JP]; 1-1, Kamikodanaka 4-chome, Nakahara-ku, Kawasaki-shi, Kanagawa 211-8588 (JP) (Tous Sauf US).
HUANG, Xiaohong [CN/CN]; (CN) (US Seulement).
XU, Guowei [CN/CN]; (CN) (US Seulement)
Inventeurs : HUANG, Xiaohong; (CN).
XU, Guowei; (CN)
Mandataire : ISHIDA, Takashi; A. AOKI, ISHIDA & ASSOCIATES, Toranomon 37 Mori Bldg., 5-1, Toranomon 3-chome, Minato-ku, Tokyo 105-8423 (JP)
Données relatives à la priorité :
01123845.3 03.08.2001 CN
Titre (EN) AN APPARATUS AND METHOD FOR EXTRACTING INFORMATION FROM A FORMATTED DOCUMENT
(FR) DISPOSITIF D'EXTRACTION D'INFORMATIONS D'UN DOCUMENT FORMATE ET PROCEDE CORRESPONDANT
Abrégé : front page image
(EN)The present invention discloses an apparatus for extracting information from a formatted document, comprising: an input unit (1) for inputting a formatted document; a unit (2) for analyzing the input formatted document and saving the particular typographic information, a unit (3) for identifying special character strings on the basis of the analysis result by means of the typographic information such as font size, character font, color, etc.; a unit (4) for extracting the identified special character strings; and an output unit (5) for outputting the extracted character strings. When the typographic information of a certain character string is determined as a special typograhic information, said character string is determined to be special character string. Thus, the present apparatus is able to automatically extract information from different types of format documents.
(FR)Cette invention a trait à un dispositif d'extraction d'informations d'un document formaté. Ce dispositif est constitué d'un périphérique d'entrée (1) entrant un document formaté, d'une unité (2) analysant ce document et sauvegardant l'information typographique particulière, d'une unité (3) identifiant des chaînes de caractères spéciaux en fonction des résultats de l'analyse susmentionnée et ce, au moyen des informations relatives à la typographie, notamment au corps, à la police des caractères, à la couleur, etc., d'une unité d'extraction (4) des chaînes de caractères spéciaux identifiés et d'un périphérique de sortie (5) sortant les chaînes de caractères extraites. Lorsqu'une information typographique relative à une certaine chaîne de caractères est analysée comme étant une information typographique spéciale, cette chaîne de caractères est déterminée comme étant une chaîne de caractères spéciaux. C'est ainsi que ce dispositif est en mesure d'extraire automatiquement une information à partir de différentes sortes de documents formatés.
États désignés : JP, US.
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, SK, TR).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)