WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2017140221) PROCÉDÉ ET DISPOSITIF DE TRAITEMENT D'INFORMATIONS DE TEXTE
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2017/140221 N° de la demande internationale : PCT/CN2017/073020
Date de publication : 24.08.2017 Date de dépôt international : 07.02.2017
CIB :
G06F 17/27 (2006.01)
Déposants : TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED[CN/CN]; 35/F, Tencent Building Kejizhongyi Road, Midwest District of Hi-Tech Park, Nanshan District Shenzhen, Guangdong 518057, CN
Inventeurs : LIN, Quanchen; CN
LIU, Lichun; CN
ZHAO, Jianchun; CN
Mandataire : SHENPAT INTELLECTUAL PROPERTY AGENCY; Room 1521 West Block, Guomao Building Shenzhen City, Guangdong 518014, CN
Données relatives à la priorité :
201610091229.X18.02.2016CN
Titre (EN) TEXT INFORMATION PROCESSING METHOD AND DEVICE
(FR) PROCÉDÉ ET DISPOSITIF DE TRAITEMENT D'INFORMATIONS DE TEXTE
(ZH) 文本信息处理方法和装置
Abrégé : front page image
(EN) A text information processing method and device is provided. The method comprises: dividing a training corpus into words and strings (102); respectively calculating probabilities of the words and the strings in the training corpus to obtain an independent probability of the words and a joint probability of the strings (103); selecting, on the basis of the independent probability and the joint probability, a string from among the strings, and using the selected string as a candidate new word (104); and if the candidate new word is not in a predetermined dictionary and a joint probability corresponding to the candidate new word is greater than a predetermined threshold, determining the candidate new word to be a new word (105). The solution not only simplifies a process and reduces calculation resources, but also increases a discovery rate of new words to improve processing results.
(FR) L'invention concerne un procédé et un dispositif de traitement d'informations de texte. Le procédé consiste : à diviser un ensemble d'apprentissage en mots et en chaînes (102) ; à calculer respectivement les probabilités des mots et des chaînes de l'ensemble d'apprentissage pour obtenir la probabilité indépendante des mots et la probabilité conjointe des chaînes (103) ; à sélectionner l'une des chaînes sur la base de la probabilité indépendante et de la probabilité conjointe, et à utiliser la chaîne sélectionnée comme nouveau mot candidat (104) ; et, si le nouveau mot candidat n'est pas dans un dictionnaire prédéfini et que la probabilité conjointe correspondant au nouveau mot candidat est supérieure à un seuil prédéfini, à déterminer que le nouveau mot candidat est un nouveau mot (105). Non seulement cette solution simplifie un processus et réduit les ressources de calcul, mais elle accroît également le taux de découverte de nouveaux mots pour améliorer les résultats de traitement.
(ZH) 一种文本信息处理方法和装置。将训练语料划分为单字,以及字串(102),并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串的联合概率(103),然后,根据该独立概率和联合概率在所述字串中进行选择,将选择的字串作为候选新词(104),在所述候选新词不在预设词典中,且所述候选新词对应的联合概率大于预设阈值时,确定该候选新词为新词(105)。该方案不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : chinois (ZH)
Langue de dépôt : chinois (ZH)