WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
PATENTSCOPE will be unavailable a few hours for maintenance reason on Saturday 18.08.2018 at 9:00 AM CEST
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2017177809) WORD SEGMENTATION METHOD AND SYSTEM FOR LANGUAGE TEXT
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2017/177809 International Application No.: PCT/CN2017/077830
Publication Date: 19.10.2017 International Filing Date: 23.03.2017
IPC:
G06F 17/27 (2006.01)
Applicants: HUAWEI TECHNOLOGIES CO., LTD.[CN/CN]; Huawei Administration Building Bantian, Longgang Shenzhen, Guangdong 518129, CN
Inventors: CHEN, Xiao; CN
LI, Hang; CN
Agent: LONGSUN LEAD IP LTD.; Rm.101, Building 3 No. 68 Beiqing Road, Haidian District Beijing 100094, CN
Priority Data:
201610225943.312.04.2016CN
Title (EN) WORD SEGMENTATION METHOD AND SYSTEM FOR LANGUAGE TEXT
(FR) PROCÉDÉ ET SYSTÈME DE SEGMENTATION DE MOTS POUR UN TEXTE DE LANGUE
(ZH) 语言文本的分词方法和系统
Abstract: front page image
(EN) Provided are a word segmentation method and system for a language text. The method comprises: acquiring a first language text to be processed and a credibility threshold value; adopting a first word segmentation mode to perform word segmentation on the first language text, so as to obtain a first word boundary set; according to the credibility threshold value, dividing the first word boundary set into a credible second word boundary set and a non-credible third word boundary set; according to the third word boundary set, selecting a second language text from the first language text, wherein the second language text comprises a word corresponding to each word boundary in the third word boundary set; using a second word segmentation mode to perform word segmentation on the second language text, so as to obtain a fourth word boundary set; and determining the second word boundary set and the fourth word boundary set as a word segmentation result of the first language text. By means of adjusting the size of a credibility threshold value, the accuracy of word segmentation required by the first language text can be flexibly adjusted, so as to adapt to a plurality of application scenarios having various requirements for the accuracy of word segmentation.
(FR) L'invention concerne un procédé et un système de segmentation de mots pour un texte de langue. Le procédé consiste : à acquérir un premier texte de langue à traiter et une valeur de seuil de crédibilité ; à adopter un premier mode de segmentation de mots pour effectuer une segmentation de mots sur le premier texte de langue, de manière à obtenir un premier ensemble de limites de mots ; à diviser, en fonction de la valeur du seuil de crédibilité, le premier ensemble de limites de mots en un deuxième ensemble crédible de limites de mots et en un troisième ensemble non crédible de limites de mots ; à sélectionner, selon le troisième ensemble de limites de mots, un second texte de langue à partir du premier texte de langue, le second texte de langue comprenant un mot correspondant à chaque limite de mot dans le troisième ensemble de limites de mots ; à utiliser un second mode de segmentation de mots pour effectuer une segmentation de mots sur le second texte de langue, de manière à obtenir un quatrième ensemble de limites de mots ; et à déterminer le deuxième ensemble de limites de mots et le quatrième ensemble de limites de mots en tant que résultat de segmentation de mots du premier texte de langue. Grâce au réglage de la taille de la valeur du seuil de crédibilité, la précision de la segmentation de mots requise par le premier texte de langue peut être réglée de manière flexible, de manière à s'adapter à une pluralité de scénarios d'application présentant diverses exigences en termes de précision de segmentation de mots.
(ZH) 本发明实施例提供一种语言文本的分词方法和系统,该方法包括:获取待处理的第一语言文本和可信度阈值;采用第一分词方式,对第一语言文本进行分词,得到第一词边界集合;根据可信度阈值,将第一词边界集合划分成可信的第二词边界集合和不可信的第三词边界集合;根据第三词边界集合,从第一语言文本中选取第二语言文本,第二语言文本包括第三词边界集合中的每个词边界对应的词;采用第二分词方式,对第二语言文本进行分词,得到第四词边界集合;将第二词边界集合和第四词边界集合确定为第一语言文本的分词结果。通过调整可信度阈值的大小,能够灵活调整第一语言文本所需的分词精度,从而能够适应对分词精度有不同要求的多种应用场景。
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)