WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2012125845) N-GRAM-BASED LANGUAGE PREDICTION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2012/125845    International Application No.:    PCT/US2012/029260
Publication Date: 20.09.2012 International Filing Date: 15.03.2012
IPC:
G06F 15/18 (2006.01)
Applicants: AMAZON TECHNOLOGIES, INC. [US/US]; Po Box 8102 Reno, NV 89507 (US) (For All Designated States Except US).
GERSHNIK, Eugene [US/US]; (US) (For US Only)
Inventors: GERSHNIK, Eugene; (US)
Agent: LEE, Lewis, C.; Lee & Hayes, PLLC 601 W. Riverside Ave, Suite 1400 Spokane, WA 99201 (US)
Priority Data:
13/050,726 17.03.2011 US
Title (EN) N-GRAM-BASED LANGUAGE PREDICTION
(FR) PRÉDICTION D'UNE LANGUE À PARTIR DES N-GRAMMES
Abstract: front page image
(EN)Techniques are described for predicting the language of a text excerpt. The language prediction is accomplished by comparing w-grams of the text excerpt with n- grams of different language references. A probability is calculated for each w-gram of the text excerpt with respect to each of the language references. The calculated probabilities corresponding to a single language are then averaged to yield an overall probability corresponding to that language, and the resulting overall probabilities are compared to find the most likely language of the sample text.
(FR)L'invention concerne des techniques de prédiction de la langue d'un extrait de texte. Cette prédiction s'effectue par comparaison des w-grammes de l'extrait de texte avec les n-grammes de différentes références de langue. Une probabilité est calculée pour chaque w-gramme de l'extrait de texte par rapport à chaque référence de langue. Les probabilités calculées correspondant à une langue unique sont ensuite moyennées pour produire une probabilité globale correspondant à cette langue, et les probabilités globales résultantes sont comparées pour trouver la langue la plus probable de l'échantillon de texte.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)