WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2017185674) METHOD AND APPARATUS FOR DISCOVERING NEW WORD
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.:    WO/2017/185674    International Application No.:    PCT/CN2016/102448
Publication Date: 02.11.2017 International Filing Date: 18.10.2016
IPC:
G06F 17/27 (2006.01)
Applicants: LE HOLDINGS (BEIJING) CO., LTD. [CN/CN]; Room 1102, 10th Layer, Building 3, 105 Yaojiayuan Road, ChaoYang District Beijing 100025 (CN).
LE SHI INTERNET INFORMATION & TECHNOLOGY CORP., BEIJING [CN/CN]; 10th Layer Letv Building No.105 Yaojiayuan Road, ChaoYang District Beijing 100025 (CN)
Inventors: KANG, Chaoming; (CN)
Agent: CN-KNOWHOW INTELLECTUAL PROPERTY AGENT LIMITED; 18th Floor, Tower B, CEC Plaza No. 3 Dan Ling Street, Haidian District Beijing 100080 (CN)
Priority Data:
201610282625.0 29.04.2016 CN
Title (EN) METHOD AND APPARATUS FOR DISCOVERING NEW WORD
(FR) PROCÉDÉ ET APPAREIL POUR DÉCOUVRIR UN NOUVEAU MOT
(ZH) 新词发现方法及装置
Abstract: front page image
(EN)The embodiments of the present invention relate to a method and apparatus for discovering a new word. The method comprises: extracting a morpheme from a target text in a target text library, constructing a morpheme set H, making statistics on an appearance frequency of the morpheme, representing the morpheme and the appearance frequency of the morpheme as a two-tuple form, and forming a two-tuple set T; calculating a context association degree d of a subset w of a morpheme ti, and summarizing the subsets w of morphemes ti with the d value being greater than or equal to a pre-set association degree threshold value to form a first candidate word set Ws; calculating a support degree and a confidence degree of the morpheme ti, and summarizing morphemes ti with both the support degree and the confidence degree being greater than or equal to a corresponding minimum threshold value to form a second candidate word set Wt; and obtaining an intersection between the first candidate word set Ws and the second candidate word set Wt as a candidate new word set Wh, filtering the candidate new word set Wh, extracting a new word and saving same as a new word set W. In the embodiments of the present invention, information entropy algorithm analysis and association rule algorithm analysis are effectively combined, and thus the accuracy degree of new word discovery can be effectively improved.
(FR)Conformément à des modes de réalisation, la présente invention concerne un procédé et un appareil pour découvrir un nouveau mot. Le procédé comprend les étapes suivantes : extraire un morphème à partir d'un texte cible dans une bibliothèque de textes cibles, construire un ensemble de morphèmes H, réaliser des statistiques sur une fréquence d'apparition du morphème, représenter le morphème et la fréquence d'apparition du morphème en une forme à deux n-uplets, et former un ensemble de deux n-uplets T ; calculer un degré d'association de contexte d d'un sous-ensemble w d'un morphème ti, et résumer les sous-ensembles w de morphèmes ti, la valeur d étant supérieure ou égale à une valeur de seuil de degré d'association préréglée pour former un premier ensemble de mots candidats Ws ; calculer un degré de confirmation et un degré de certitude du morphème ti, et résumer des morphèmes ti dont le degré de confirmation et le degré de certitude sont tous deux supérieurs ou égaux à une valeur de seuil minimale correspondante pour former un second ensemble de mots candidats Wt ; et obtenir une intersection entre le premier ensemble de mots candidats Ws et le second ensemble de mots candidats Wt en tant que nouvel ensemble de mots candidats Wh, filtrer le nouvel ensemble de mots candidats Wh, extraire un nouveau mot et le sauvegarder en tant que nouvel ensemble de mots W. Dans les modes de réalisation de la présente invention, l'analyse d'algorithme d'entropie d'informations et l'analyse d'algorithme de règle d'association sont efficacement combinées, et ainsi, le degré de précision d'une découverte de nouveau mot peut être efficacement amélioré.
(ZH)本发明实施例涉及一种新词发现方法及装置,所述方法包括:从目标文本库中的目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;计算词素ti的子集w的上下文关联度d,并将d值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;计算词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,对候选新词集合Wh进行过滤,提取新词保存为新词集合W。本发明实施例有效地结合信息熵算法分析和关联规则算法分析,可有效提高新词发现的准确度。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)