WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2012106885) LATENT DIRICHLET ALLOCATION-BASED PARAMETER INFERENCE METHOD, CALCULATION DEVICE AND SYSTEM
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2012/106885    International Application No.:    PCT/CN2011/077097
Publication Date: 16.08.2012 International Filing Date: 13.07.2011
IPC:
G06F 17/10 (2006.01)
Applicants: HUAWEI TECHNOLOGIES CO., LTD. [CN/CN]; Huawei Administration Building Bantian, Longgang District Shenzhen, Guangdong 518129 (CN) (For All Designated States Except US).
VLADISLAV, Kopylov [CN/CN]; (CN) (For US Only).
WEN, Liufei [CN/CN]; (CN) (For US Only).
SHE, Guangyu [CN/CN]; (CN) (For US Only)
Inventors: VLADISLAV, Kopylov; (CN).
WEN, Liufei; (CN).
SHE, Guangyu; (CN)
Agent: BEIJING ZBSD PATENT & TRADEMARK AGENT LTD.; 501/B, Fortune Building No.17 Daliushu Road Haidian District, Beijing 100081 (CN)
Priority Data:
Title (EN) LATENT DIRICHLET ALLOCATION-BASED PARAMETER INFERENCE METHOD, CALCULATION DEVICE AND SYSTEM
(FR) PROCÉDÉ D'INFÉRENCE DES PARAMÈTRES BASÉS SUR L'ALLOCATION DE DIRICHLET LATENTE ET SYSTÈME DE CALCUL
(ZH) 基于潜在狄利克雷模型的参数推断方法、计算装置及系统
Abstract: front page image
(EN)The embodiment of the present invention relates to the field of information retrieval. Provided are a Latent Dirichlet Allocation (LDA)-based parameter inference method, calculation device and system for solving the problem of poor LDA model solution precision due to the inaccurate number of topics inputted manually. The method comprises: calculating an LDA model and obtaining a probability distribution according to a set initial first hyper-parameter, initial second hyper-parameter, initial number of topics, counting matrix of initial global documents and topics and counting matrix of a main body and words; using the expectation maximization algorithm to obtain the number of topics, the first hyper-parameter and the second hyper-parameter maximizing the value of the log likelihood function of the probability distribution; determining whether the number of topics, the first hyper-parameter and the second hyper-parameter are converging and, if not, putting the number of topics, the first hyper-parameter and the second hyper-parameter into the LDA model for calculation until the optimal number of topics, the optimal first hyper-parameter and the optimal second hyper-parameter maximizing the value of the log likelihood function of the probability distribution converges. The embodiments of the present invention are applicable to document parameter inference.
(FR)Selon un mode de réalisation, la présente invention a trait au domaine d'extraction d'information. L'invention concerne un procédé d'inférence de paramètres basés sur l'allocation de Dirichlet latente (LDA), un dispositif et un système de calcul pour résoudre le problème d'une précision de solution de modèle LDA inadéquat dû au nombre imprécis de sujets entrés manuellement. Le procédé comprend les étapes suivantes: le calcul d'un modèle LDA et l'obtention d'une distribution de probabilités en fonction d'un premier hyper-paramètre initial établi, d'un second hyper-paramètre initial, d'un nombre initial de sujets, le dénombrement de matrice de documents globaux initiaux et de sujets et le dénombrement de matrice d'un corps principal et de mots ;l'utilisation d'algorithme espérance-maximisation pour obtenir le nombre de sujets, le premier hyper-paramètre et le second hyper-paramètre assurant la maximisation de la valeur de la fonction log vraisemblance de la fonction de répartition ; la détermination de la convergence ou non du nombre de sujets, du premier hyper-paramètre et du second hyper-paramètre, et si tel n'est pas le cas, l'introduction du nombre de sujets, du premier hyper-paramètre et du second hyper-paramètre dans le modèle LDA pour un calcul jusqu'à la convergence du nombre optimal de sujets, du premier hyper-paramètre optimal et du second hyper-paramètre optimal maximisant la valeur de la fonction log vraisemblance de la fonction de répartition. Les modes de réalisation selon la présente invention sont applicables à l'inférence de paramètres de documents.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IS, JP, KE, KG, KM, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PE, PG, PH, PL, PT, RO, RS, RU, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)