WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Options
Langue d'interrogation
Stemming/Racinisation
Trier par:
Nombre de réponses par page
Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2002095614) PROCEDE D'IDENTIFICATION D'UN SYSTEME DE CODE DE TYPE LANGAGE OU PAR CARACTERES
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication : WO/2002/095614 N° de la demande internationale : PCT/JP2001/004350
Date de publication : 28.11.2002 Date de dépôt international : 24.05.2001
Demande présentée en vertu du Chapitre 2 : 22.10.2002
CIB :
G06F 17/27 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
20
Manipulation de données en langage naturel
27
Analyse automatique, p.ex. analyse grammaticale, correction orthographique
Déposants : SUZUKI, Izumi[JP/JP]; JP
Inventeurs : SUZUKI, Izumi; JP
Données relatives à la priorité :
Titre (EN) METHOD FOR IDENTIFYING LANGUAGE/CHARACTER CODE SYSTEM
(FR) PROCEDE D'IDENTIFICATION D'UN SYSTEME DE CODE DE TYPE LANGAGE OU PAR CARACTERES
Abrégé :
(EN) A method for mechanically identifying the language and character code system of a text document encoded by a computer. In the list LBSL/C of byte string of specified length previously formed for each objective language/character code system, byte strings of a specified number of bytes possibly occurring in a text document of a relevant language/character code system are stored. For each language/character code string, an “occurrence rate of learnt byte string” , i.e. the rate of the number of byte strings of specified length already existing in the list LBSL/C and contained in an objective text document, is calculated and only when only one language/character code system having an “occurrence rate of learnt byte” close to 1 exists, the language/character code system is outputted as the result.
(FR) L'invention porte sur un procédé d'identification mécanique d'un système de code de type langage ou par caractères d'un document textuel codé informatiquement. Dans la liste LBSL/C d'une chaîne d'octets d'une longueur spécifique, formée précédemment pour chaque système de code de type langage ou par caractères, sont stockées des chaînes d'un nombre spécifique d'octets se présentant éventuellement dans un document textuel d'un système de code de type langage ou par caractères considéré. Pour chaque chaîne de codes de type langage ou par caractères, on calcule une «fréquence d'occurrence de la chaîne d'octets apprise », c'est-à-dire la fréquence du nombre de chaînes d'octets d'une longueur spécifique existant déjà dans la liste LBSL/C et contenue dans un document textuel considéré, et ce n'est que lorsque le paramètre considéré se rapproche de 1 qu'on restitue en sortie comme résultat le nom du système de code de type langage ou par caractères.
front page image
États désignés : AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CR, CU, CZ, DE, DK, DM, DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (GH, GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG)
Langue de publication : japonais (JA)
Langue de dépôt : japonais (JA)