WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2008116843) PROCÉDÉ DE RECONNAISSANCE DE MOTS DANS DES SÉQUENCES DE SIGNES
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2008/116843    N° de la demande internationale :    PCT/EP2008/053430
Date de publication : 02.10.2008 Date de dépôt international : 20.03.2008
CIB :
G06F 17/27 (2006.01), G06F 3/023 (2006.01)
Déposants : DEINZER, Frank [DE/DE]; (DE)
Inventeurs : DEINZER, Frank; (DE)
Mandataire : KOENIG, Beate; Morassistrasse 8, 80469 München (DE)
Données relatives à la priorité :
10 2007 014 405.0 26.03.2007 DE
Titre (DE) VERFAHREN ZUR WORTERKENNUNG IN ZEICHENSEQUENZEN
(EN) METHOD FOR WORD RECOGNITION IN CHARACTER SEQUENCES
(FR) PROCÉDÉ DE RECONNAISSANCE DE MOTS DANS DES SÉQUENCES DE SIGNES
Abrégé : front page image
(DE)Bei dem erfindungsgemäßen Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können, werden ein Speicher (15), eine Anzeige (13) und eine Prozessoreinrichtung (12) verwendet. Der Speicher enthält n-Gramme (Zeichenketten mit der Länge n) und den Zeichenketten zugeordnete Häufigkeitswerte, wobei als Häufig keitswert eines n-Gramms die Gesamtzahl aller n-Gramme in einer für die Worterkennung verwendeten Sprachstichprobe verwendet wird. Die Anzeige (12) zeigt ausgewählte n-Gramme und/oder erkannte Wörter an, wobei die Prozessoreinrichtung (12) mit dem Speicher (15) und der Anzeige (13) verbunden ist. Aus einer betrachteten Zeichensequenz wird eine Liste L aller n-Grammen mit N Zeichen erstellt, die aus der N-Zeichen-Sequenz unter Berücksichtigung der Mehrdeutigkeiten der in dieser enthaltenen einzelnen Zeichen gebildet werden können. Aus der Liste L der möglichen n-Gramm-Kombinationen werden alle n-Gramm-Kombinationen entfernt, deren Wort- Wahrscheinlichkeit Null ist, wobei die Wort-Wahr scheinlichkeit p = ∏ pn aus den in der Zeichensequenz enthaltenen n-Grammen mit n = 1 bis N-1 bestimmt wird. Von der Anzeige werden die durch die verbliebenen n-Gramm-Kombinationen repräsentierten Wörter (14) der Liste L angezeigt.
(EN)The method according to the invention for word recognition in sequences of N characters, of which one or more characters may be ambiguous, uses a memory (15), a display (13), and a processor device (12). The memory comprises n-grams (character chains with a length n) and frequency values associated with said character chains, with the total number of all n-grams in a language sample used for word recognition being used as the frequency value of an n-gram. The display (12) shows selected n-grams and/or recognized words, wherein the processor device (12) is connected to the memory (15) and the display (13). A list L of all n-grams with N characters that may be formed from the individual characters in the N-character sequence, taking into account the ambiguity of the characters present in said sequence, is prepared from an examined character sequence. All n-gram combinations with a word probability of zero are removed from the list L of possible n-gram combinations, wherein the word probability p = ∏ pn is determined from the n-grams included in the character sequence with n = 1 to N-1. The words (14) represented by the remaining n-gram combinations from the list L are displayed.
(FR)L'invention concerne un procédé de reconnaissance de mots dans des séquences de N signes, dont un ou plusieurs signes peuvent être interprétés de manière équivoque, procédé dans lequel on utilise une mémoire (15), un afficheur (13) et un dispositif processeur (12). La mémoire renferme n-gramme (chaînes de signes de longueurs n) et des valeurs de fréquence associées aux chaînes de signes, cependant qu'on utilise comme valeur de fréquence d'un n-gramme, le nombre total de tous les n-gramme dans un échantillon de pointes vocales utilisées pour la reconnaissance de mots. L'afficheur (13) indique les n-gramme sélectionnés et/ou des mots reconnus, le dispositif processeur (12) étant associé avec la mémoire (15) et l'afficheur (13). A partir d'une séquence de signes considérée, un établit une liste L de tous les n-gramme à N signes qui peuvent être formés à partir de la séquence à N signes, en tenant compte des ambiguïtés des signes individuels contenus dans cette liste. A partir de la liste L des combinaisons n-gramme possibles, on élimine toutes les combinaisons n-gramme dont la probabilité des mots est nulle, la probabilité de mots p = Π pn étant déterminée à partir des n-gramme contenus dans la séquence de signes, avec n = 1 jusqu'à N-1. Les mots (14) de la liste L représentés par les combinaisons n-gramme restantes sont indiqués par l'afficheur.
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, SV, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MT, NL, NO, PL, PT, RO, SE, SI, SK, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Langue de publication : allemand (DE)
Langue de dépôt : allemand (DE)