Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2017092623) METHOD AND DEVICE FOR REPRESENTING TEXT AS VECTOR
Latest bibliographic data on file with the International Bureau

Pub. No.: WO/2017/092623 International Application No.: PCT/CN2016/107312
Publication Date: 08.06.2017 International Filing Date: 25.11.2016
IPC:
G06F 17/30 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
30
Information retrieval; Database structures therefor
Applicants:
北京国双科技有限公司 BEIJING GRIDSUM TECHNOLOGY CO.,LTD. [CN/CN]; 中国北京市 海淀区双榆树小区知春路76号翠宫饭店8层 8/F Jadepalace Hotel,76 Zhi Chun Road,Shuangyushu Community, Haidian District Beijing 100086, CN
Inventors:
祁国晟 QI, Guosheng; CN
何鑫 HE, Xin; CN
Agent:
北京康信知识产权代理有限责任公司 KANGXIN PARTNERS,P.C.; 中国北京市 海淀区知春路甲48号盈都大厦A座16层 Floor 16,Tower A,Indo Building A48 Zhichun Road, Haidian District Beijing 100098, CN
Priority Data:
201510860394.230.11.2015CN
Title (EN) METHOD AND DEVICE FOR REPRESENTING TEXT AS VECTOR
(FR) PROCÉDÉ ET DISPOSITIF POUR REPRÉSENTER DU TEXTE SOUS FORME DE VECTEUR
(ZH) 文本向量表示方法及装置
Abstract:
(EN) Provided are a method and device for representing a text as a vector. The method comprises: acquiring a test text (S101); performing characterization processing on the test text to obtain a target text represented by multiple text characteristics (S102); using a pre-stored characteristic-subject relationship matrix to process the target text to obtain a subject distribution in the target text, wherein the subject distribution comprises a target subject and a ratio of the target subject to content in the target text corresponding to the target subject (S103); using a pre-stored characteristic embedding vector set to expand the text characteristics describing the target subject to obtain a target subject characteristic set, and to obtain, according to the target subject characteristic set, a vector representing the target subject (S104); and performing computation processing on the subject distribution and the vector representing the target subject to obtain a vector representing the test text (S105). The invention solves a problem in which methods for representing texts as vectors in related techniques are less effective in representing semantic information contained in texts.
(FR) L’invention concerne un procédé et un dispositif pour représenter du texte sous forme de vecteur. Le procédé comprend les étapes consistant à : acquérir un texte d’essai (S101) ; effectuer un traitement de caractérisation sur le texte d’essai afin d’obtenir un texte cible représenté par de multiples caractéristiques textuelles (S102) ; utiliser une matrice de relation caractéristique-sujet préalablement stockée pour traiter le texte cible afin d’obtenir une distribution de sujet dans le texte cible, la distribution de sujet comprenant un sujet cible et un rapport du sujet cible au contenu du texte cible correspondant au sujet cible (S103) ; utiliser un ensemble de vecteurs d’intégration de caractéristiques préalablement stocké pour étendre les caractéristiques textuelles décrivant le sujet cible afin d’obtenir un ensemble de caractéristiques de sujet cible et afin d’obtenir, d’après l’ensemble de caractéristiques de sujet cible, un vecteur représentant le sujet cible (S104) ; et effectuer un traitement de calcul sur la distribution de sujet et le vecteur représentant le sujet cible afin d’obtenir un vecteur représentant le texte d’essai (S105). L’invention résout le problème du manque d’efficacité des procédés représentant le texte sous forme de vecteurs dans les techniques apparentées, lorsqu’il s’agit de représenter les informations sémantiques contenues dans des textes.
(ZH) 一种文本向量表示方法及装置。该方法包括:获取测试文本(S101);对测试文本进行特征化处理,得到多个文本特征表示的目标文本(S102);利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例(S103);利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量(S104);以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量(S105)。解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: Chinese (ZH)
Filing Language: Chinese (ZH)