Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2018121145) METHOD AND DEVICE FOR VECTORIZING PARAGRAPH
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2018/121145 International Application No.: PCT/CN2017/112593
Publication Date: 05.07.2018 International Filing Date: 23.11.2017
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
北京国双科技有限公司 BEIJING GRIDSUM TECHNOLOGY CO., LTD. [CN/CN]; 中国北京市 海淀区双榆树小区知春路76号翠宫饭店8层 8/F Jadepalace Hotel 76 Zhi Chun Road Shuangyushu Community, Haidian District Beijing 100086, CN
Inventors:
石鹏 SHI, Peng; CN
姜珂 JIANG, Ke; CN
Agent:
北京康信知识产权代理有限责任公司 KANGXIN PARTNERS, P.C.; 中国北京市 海淀区知春路甲48号盈都大厦A座16层 Floor 16, Tower A, Indo Building A48 Zhichun Road, Haidian District Beijing 100098, CN
Priority Data:
201611260591.130.12.2016CN
Title (EN) METHOD AND DEVICE FOR VECTORIZING PARAGRAPH
(FR) PROCÉDÉ ET DISPOSITIF DE VECTORISATION DE PARAGRAPHE
(ZH) 段落向量化的方法和装置
Abstract:
(EN) A method and device for vectorizing a paragraph. The method comprises: creating a feature set comprising a plurality of feature words (S102); replacing a word in a paragraph to be processed on the basis of a preconfigured knowledge base to obtain a post-replacement paragraph (S104); and employing a word in the post-replacement paragraph and belonging to the feature set as a feature of the post-replacement paragraph, to vectorize the post-replacement paragraph (S106). The method resolves a technical issue in the prior art in which, in a paragraph vectorization process, a distance is calculated on the basis of the context of words and sentences, but a sentence vector calculated using a clustering method cannot reflect features of a content structure of a standard text.
(FR) L'invention concerne un procédé et un dispositif de vectorisation de paragraphe. Le procédé comporte les étapes consistant à: créer un ensemble de caractéristiques comportant une pluralité de mots caractéristiques (S102); remplacer un mot dans un paragraphe à traiter d'après une base de connaissances préconfigurée pour obtenir un paragraphe post-remplacement (S104); et employer un mot dans le paragraphe post-remplacement et appartenant à l'ensemble de caractéristiques en tant que caractéristique du paragraphe post-remplacement, pour vectoriser le paragraphe post-remplacement (S106). Le procédé résout un problème technique rencontré dans l'état antérieur de la technique où, dans un processus de vectorisation de paragraphe, une distance est calculée d'après le contexte de mots et de phrases, mais un vecteur de phrase calculé à l'aide d'un procédé de regroupement ne peut pas refléter des caractéristiques d'une structure de contenu d'un texte standard.
(ZH) 一种段落向量化的方法和装置。其中,该方法包括:构建包括多个特征词的特征集合(S102);基于预设知识库对待处理段落中的词进行替代,得到转换后段落(S104);将转换后段落中属于特征集合的词作为转换后段落的特征,对转换后段落进行向量化(S106)。本方法解决了现有技术中在对段落进行向量化时采用基于词、句子的上下文计算距离,然后再通过聚类等方法计算得到的句子的向量无法反映规范性文本的内容结构特点的技术问题。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)