WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO1998000794) IDENTIFICATION OF WORDS IN JAPANESE TEXT BY A COMPUTER SYSTEM
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/1998/000794    International Application No.:    PCT/US1997/011029
Publication Date: 08.01.1998 International Filing Date: 25.06.1997
Chapter 2 Demand Filed:    22.01.1998    
IPC:
G06F 17/27 (2006.01), G06F 17/28 (2006.01)
Applicants: MICROSOFT CORPORATION [US/US]; One Microsoft Way, Redmond, WA 98052-6399 (US)
Inventors: HALSTEAD, Patrick, H., Jr.; (US).
SUZUKI, Hisami; (US)
Agent: CANNING, Kevin, J.; Seed and Berry LLP, 6300 Columbia Center, 701 Fifth Avenue, Seattle, WA 98104-7092 (US).
GRÜNECKER, A.; Maximilianstr. 58, D-80538 München (DE)
Priority Data:
08/672,638 28.06.1996 US
Title (EN) IDENTIFICATION OF WORDS IN JAPANESE TEXT BY A COMPUTER SYSTEM
(FR) IDENTIFICATION PAR ORDINATEUR DES MOTS D'UN TEXTE EN JAPONAIS
Abstract: front page image
(EN)A word breaking facility operates to identify words within a Japanese text string. The word breaking facility performs morphological processing to identify postfix bound morphemes and prefix bound morphemes. The word breaking facility also performs opheme matching to identify likely stem characters. A scoring heuristic is applied to determine an optimal analysis that includes a postfix analysis, a stem analysis, and a prefix analysis. The morphological analyses are stored in an efficient compressed format to minimize the amount of memory they occupy and maximize the analysis speed. The morphological analyses of postfixes, stems, and prefixes are performed in a right-to-left fashion. The word breaking facility may be used in applications that demand identity of selection granularity, autosummarization applications, content indexing applications, and natural language processing applications.
(FR)L'invention concerne un système de coupure de mots visant à identifier les mots d'une chaîne de texte en Japonais. Le système offre un traitement morphologique qui identifie les morphèmes liés qui sont des postfixes et les morphèmes liés qui sont des préfixes. Il fournit les équivalences en ophèmes (orthographèmes) qui permettent d'identifier les caractères qui constituent probablement un radical. Une heuristique d'évaluation permet de conduire une ananlyse optimale pour déterminer les postfixes, les radicaux et les préfixes. Les résultats de l'analyse morphologique sont mis en mémoire avec efficacité sous format comprimé, ce qui réduit au minimum l'espace mémoire occupé et confère au système une vitesse d'analyse aussi élevée que possible. L'analyse morphologique des postfixes, des radicaux et des préfixes s'effectue de droite à gauche. Le système de coupure de mots se prête aux applications exigeant une identité de granularité en sélection, aux applications impliquant un autorésumage, aux applications impliquant une indexation de contenu et aux applications impliquant un traitement de language naturel.
Designated States: CN, JP.
European Patent Office (AT, BE, CH, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE).
Publication Language: English (EN)
Filing Language: English (EN)