WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2018102438) LANGUAGE IDENTIFICATION FOR TEXT STRINGS
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/102438 International Application No.: PCT/US2017/063753
Publication Date: 07.06.2018 International Filing Date: 29.11.2017
IPC:
G06F 17/20 (2006.01)
Applicants: EBAY INC.[US/US]; 2145 Hamilton Avenue San Jose, California 95125, US
Inventors: GUPTA, Akshay; US
JOSHI, Hrishikesh; US
KOHLI, Saiyam; US
AGGARWAL, Vidit; US
Agent: SCHEER, Bradley, W.; US
BLACK, David W., Reg. No. 42,331; US
PERDOK, Monique M., Reg. No. 42,989; US
WOO, Justin N., Reg. No. 62,686; US
GOULD, James R., Reg. No. 72,086; US
ARORA, Suneel, Reg. No. 42,267; US
Priority Data:
15/363,28329.11.2016US
Title (EN) LANGUAGE IDENTIFICATION FOR TEXT STRINGS
(FR) IDENTIFICATION DE LANGUE POUR CHAÎNES DE TEXTE
Abstract: front page image
(EN) Aspects of the present disclosure include a system comprising a machine-readable storage medium storing at least one program and computer-implemented methods for detecting a language of a text string. Consistent with some embodiments, the method may include applying multiple language identification models to a text string. Each language identification model provides a predicted language of the text string and a confidence score associated with the predicted language. The method may further include weighting each associated confidence score based on historical performance of the corresponding language identification model in predicting languages of other text strings. The method may further include selecting a predicted language of the text string from among the multiple predicted languages provided by the multiple language identification models based on a result of the weighting of the confidence score associated with the particular predicted language.
(FR) Des aspects de la présente invention concernent un système comprenant un support de stockage lisible par machine stockant au moins un programme, ainsi que des procédés informatisés de détection d'une langue d'une chaîne de texte. Selon certains modes de réalisation, le procédé peut comprendre les étapes consistant à : appliquer de multiples modèles d'identification de langue à une chaîne de texte, chaque modèle d'identification de langue déterminant une langue prédite de la chaîne de texte et un score de confiance associé à la langue prédite; pondérer chaque score de confiance associé sur la base des performances historiques du modèle d'identification de langue correspondant lors de prédictions de langues d'autres chaînes de texte; et sélectionner une langue prédite de la chaîne de texte parmi les multiples langues prédites déterminées par les multiples modèles d'identification de langue sur la base d'un résultat de la pondération du score de confiance associé à la langue prédite particulière.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)