WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2014190220) LANGUAGE MODEL TRAINED USING PREDICTED QUERIES FROM STATISTICAL MACHINE TRANSLATION
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2014/190220    International Application No.:    PCT/US2014/039258
Publication Date: 27.11.2014 International Filing Date: 23.05.2014
IPC:
G06F 17/27 (2006.01), G10L 15/197 (2013.01), G06F 17/30 (2006.01), G10L 15/06 (2013.01), G06F 17/28 (2006.01)
Applicants: MICROSOFT TECHNOLOGY LICENSING, LLC [US/US]; One Microsoft Way Redmond, WA 98052 (US)
Inventors: LEVIT, Michael; (US).
HAKKANI-TUR, Dilek; (US).
TUR, Gokhan; (US)
Priority Data:
13/902,470 24.05.2013 US
Title (EN) LANGUAGE MODEL TRAINED USING PREDICTED QUERIES FROM STATISTICAL MACHINE TRANSLATION
(FR) MODÈLE DE LANGAGE APPRIS À L'AIDE DE REQUÊTES PRÉDITES À PARTIR D'UNE TRADUCTION AUTOMATIQUE STATISTIQUE
Abstract: front page image
(EN)A Statistical Machine Translation (SMT) model (165) is trained using pairs of sentences that include content obtained from one or more content sources (e.g. feed(s)) with corresponding queries that have been used to access the content. A query click graph (130) may be used to assist in determining candidate pairs for the SMT training data. All/portion of the candidate pairs may be used to train the SMT model. After training the SMT model using the SMT training data, the SMT model is applied to content to determine predicted queries (154) that may be used to search for the content. The predicted queries are used to train a language model, such as a query language model. The query language model may be interpolated other language models, such as a background language model, as well as a feed language model trained using the content used in determining the predicted queries.
(FR)Selon l'invention, un modèle de traduction automatique statistique (SMT) est appris à l'aide de paires de phrases qui comprennent du contenu obtenu auprès d'une ou plusieurs sources de contenu (par exemple, un ou plusieurs fils) avec des requêtes correspondantes qui ont été utilisées pour accéder au contenu. Un graphe requête-clic peut être utilisé pour aider à déterminer des paires candidates pour les données d'apprentissage SMT. L'ensemble/une partie des paires candidates peuvent être utilisées pour apprendre le modèle SMT. Après apprentissage du modèle SMT à l'aide des données d'apprentissage SMT, le modèle SMT est appliqué à du contenu afin de déterminer des requêtes prédites qui peuvent être utilisées pour rechercher le contenu. Les requêtes prédites sont utilisées pour apprendre un modèle de langage, tel qu'un modèle de langage de requête. Le modèle de langage de requête peut être interpolé à d'autres modèles de langage, tels qu'un modèle de langage d'arrière-plan, ainsi qu'un modèle de langage de fil appris à l'aide du contenu utilisé dans la détermination des requêtes prédites.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)