Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2017092337) COMMENT TAG EXTRACTION METHOD AND APPARATUS
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2017/092337 International Application No.: PCT/CN2016/089277
Publication Date: 08.06.2017 International Filing Date: 07.07.2016
IPC:
G06F 17/27 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
27
Automatic analysis, e.g. parsing, orthograph correction
Applicants:
乐视控股(北京)有限公司 LE HOLDINGS (BEIJING) CO., LTD. [CN/CN]; 中国北京市 朝阳区姚家园路105号3号楼10层1102 Room 1102, 10 Layer Building 3, 105 Yaojiayuan Road, Chaoyang District Beijing 100025, CN
乐视网信息技术(北京)股份有限公司 LE SHI INTERNET INFORMATION & TECHNOLOGY CORP., BEIJING [CN/CN]; 中国北京市 朝阳区姚家园路105号乐视大厦10层 10th Layer Letv Building, No. 105 Yaojiayuan Road, Chaoyang District Beijing 100025, CN
Inventors:
康潮明 KANG, Chaoming; CN
Agent:
北京润泽恒知识产权代理有限公司 BEIJING RUN ZEHENG INTELLECTUAL PROPERTY LAW FIRM; 中国北京市 海淀区中关村南大街31号神舟大厦702 702, Shenzhou Building No.31 South Street, Zhongguancun Haidian District, Beijing 100081, CN
Priority Data:
201510866792.501.12.2015CN
Title (EN) COMMENT TAG EXTRACTION METHOD AND APPARATUS
(FR) PROCÉDÉ ET APPAREIL D’EXTRACTION D’ÉTIQUETTE DE COMMENTAIRE
(ZH) 评论标签提取方法和装置
Abstract:
(EN) A comment tag extraction method and apparatus. The method comprises: extracting two tuples from various comments corresponding to an object to be processed currently, and combining the two extracted tuples into a first set (S102); determining from the various comments a word, a TF-IDF of which is greater than a first set threshold value, and combining the determined words into a second set (S104); processing the first set and the second set according to a first set rule to generate a third set (S106); determining from the various comments a word, a subject weight value of which is greater than a second set threshold value, and combining the determined words, the subject weight value of which is greater than the second set threshold value, into a fourth set (S108); intersecting the third set and the fourth set to obtain a fifth set (S110); and performing deduplication on the words in the fifth set, and determining the remaining words after the deduplication as a comment tag of the object to be processed currently (S112). By means of the comment tag extraction method provided above, the accuracy of comment tags can be improved.
(FR) L’invention concerne un procédé et un appareil d’extraction d’étiquette de commentaire. Le procédé consiste : à extraire deux n-uplets à partir de divers commentaires correspondant à un objet à traiter actuellement, et combiner les deux n-uplets extraits en un premier ensemble (S102) ; à déterminer, à partir des divers commentaires, un mot dont un TF-IDF est supérieur à une première valeur de seuil réglée, et combiner les mots déterminés en un second ensemble (S104) ; à traiter le premier ensemble et le second ensemble selon une première règle réglée pour générer un troisième ensemble (S106) ; à déterminer, à partir des divers commentaires, un mot dont une valeur de poids de sujet est supérieure à une seconde valeur de seuil réglée, et combiner les mots déterminés dont la valeur de poids de sujet est supérieure à la seconde valeur de seuil réglée, en un quatrième ensemble (S108) ; à faire intersecter le troisième ensemble et le quatrième ensemble pour obtenir un cinquième ensemble (S110) ; et à réaliser une déduplication sur les mots dans le cinquième ensemble, et déterminer les mots restants après la déduplication en tant qu’étiquette de commentaire de l’objet à traiter actuellement (S112). Au moyen du procédé d’extraction d’étiquette de commentaire fourni ci-dessus, la précision d’étiquettes de commentaire peut être améliorée.
(ZH) 一种评论标签提取方法和装置,其中所述方法包括:将当前待处理对象对应的各条评论进行二元组提取,将提取出的二元组组合成第一集合(S102);确定各条评论中TF-IDF大于第一设定阈值的词语,将所述确定的词语组合成第二集合(S104);按照第一设定规则对第一集合以及第二集合进行处理,生成第三集合(S106);确定各条评论中主题权重值大于第二设定阈值的词语,将确定的主题权重值大于第二设定阈值的词语组合成第四集合(S108);对第三集合以及第四集合进行求交集处理得到第五集合(S110);对第五集合中的词语进行去重复,并将去重复后剩余的词语确定为当前待处理对象的评论标签(S112)。通过上述提供的评论标签提取方法,能够提高评论标签的精确度。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)