Search International and National Patent Collections
Some content of this application is unavailable at the moment.
If this situation persists, please contact us atFeedback&Contact
1. (WO2017092122) SIMILARITY DETERMINATION METHOD, DEVICE, AND TERMINAL
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2017/092122 International Application No.: PCT/CN2015/099523
Publication Date: 08.06.2017 International Filing Date: 29.12.2015
IPC:
G06F 17/24 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
21
Text processing
24
Editing, e.g. insert/delete
Applicants:
小米科技有限责任公司 XIAOMI INC. [CN/CN]; 中国北京市 海淀区清河中街68号华润五彩城购物中心二期13层 Floor 13, Rainbow City Shopping MallⅡof China Resources, No. 68, Qinghe Middle Street, Haidian District Beijing 100085, CN
Inventors:
汪平仄 WANG, Pingze; CN
张涛 ZHANG, Tao; CN
龙飞 LONG, Fei; CN
Agent:
北京律智知识产权代理有限公司 BEIJING INTELLEGAL INTELLECTUAL PROPERTY AGENT LTD.; 中国北京市朝阳区慧忠路5号远大中心B座1802,1803,1805 1802, 1803, 1805 Tower B, Grand Place, No 5 Huizhong Road, Chaoyang District Beijing 100101, CN
Priority Data:
201510882468.203.12.2015CN
Title (EN) SIMILARITY DETERMINATION METHOD, DEVICE, AND TERMINAL
(FR) PROCÉDÉ, DISPOSITIF ET TERMINAL DE DÉTERMINATION DE SIMILITUDE
(ZH) 相似性确定方法、装置及终端
Abstract:
(EN) The invention relates to the field of natural language processing, and in particular, to a similarity determination method, device, and terminal. The similarity determination method comprises: segmenting a first string and a second string, respectively, to obtain a first sequence and a second sequence comprising at least one word, respectively (S101); determining, according to a predefined editing distance algorithm, and the first sequence and the second sequence, an editing distance between the first string and the second string (S102); and determining, according to the editing distance and information of each operation performed to transform the first sequence to the second sequence, a similarity between the first string and the second string (S103). By segmenting the first string and the second string to provide the first sequence and the second sequence, the editing distance can be determined on the basis of a word rather than a character in the strings, and since each word in the strings can comprise at least one character, the determination of the similarity according to the editing distance is combined with correlations between each character in the strings, thereby increasing accuracy of the determined similarity.
(FR) L'invention concerne le domaine du traitement du langage naturel et, en particulier, un procédé, un dispositif et un terminal de détermination de similitude. Le procédé de détermination de similitude comprend les étapes consistant à : segmenter une première chaîne et une seconde chaîne, respectivement, pour obtenir une première séquence et une seconde séquence comprenant au moins un mot, respectivement (S101); déterminer, selon un algorithme de distance d'édition prédéfini, et la première séquence et la seconde séquence, une distance d'édition entre la première chaîne et la seconde chaîne (S102); et déterminer, en fonction de la distance d'édition et des informations de chaque opération effectuée pour transformer la première séquence en la seconde séquence, une similitude entre la première chaîne et la seconde chaîne (S103). En segmentant la première chaîne et la seconde chaîne pour fournir la première séquence et la seconde séquence, la distance d'édition peut être déterminée sur la base d'un mot plutôt que d'un caractère dans les chaînes, et étant donné que chaque mot dans les chaînes peut comprendre au moins un caractère, la détermination de la similitude en fonction de la distance d'édition est combinée avec des corrélations entre chaque caractère dans les chaînes, augmentant ainsi la précision de la similitude déterminée.
(ZH) 一种相似性确定方法、装置及终端,属于自然语言处理领域。包括:分别对第一字符串和第二字符串进行分词,得到分别包括至少一个词的第一序列和第二序列(S101);根据预先定义的编辑距离算法及第一序列和第二序列确定第一字符串和第二字符串之间的编辑距离(S102);根据编辑距离及由第一序列向第二序列变换所做的各操作的信息确定第一字符串与第二字符串之间的相似性(S103)。通过将第一字符串和第二字符串分词为第一序列和第二序列,使在确定编辑距离时,是基于字符串中的词实现的,而并非基于字符串中的字符实现的,而字符串中的各个词可能包括至少一个字符,从而使根据编辑距离确定的相似性结合了字符串中各个字符之间的相关性,使确定的相似性更准确。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)
Also published as:
RU2016118758KR1017829230000*JP2018501597IN201637011187RU0002664002