Some content of this application is unavailable at the moment.
If this situation persist, please contact us atFeedback&Contact
1. (WO2019043540) TEXT DATA REPRESENTATION LEARNING USING RANDOM DOCUMENT EMBEDDING
Latest bibliographic data on file with the International Bureau    Submit observation

Pub. No.: WO/2019/043540 International Application No.: PCT/IB2018/056441
Publication Date: 07.03.2019 International Filing Date: 24.08.2018
IPC:
G06F 17/27 (2006.01)
G PHYSICS
06
COMPUTING; CALCULATING; COUNTING
F
ELECTRIC DIGITAL DATA PROCESSING
17
Digital computing or data processing equipment or methods, specially adapted for specific functions
20
Handling natural language data
27
Automatic analysis, e.g. parsing, orthograph correction
Applicants:
INTERNATIONAL BUSINESS MACHINES CORPORATION [US/US]; New Orchard Road Armonk, New York 10504, US
IBM UNITED KINGDOM LIMITED [GB/GB]; PO Box 41, North Harbour Portsmouth Hampshire PO6 3AU, GB (MG)
IBM (CHINA) INVESTMENT COMPANY LIMITED [CN/CN]; 25/F, Pangu Plaza No.27, Central North 4th Ring Road, Chaoyang District, Beijing 100101, CN (MG)
Inventors:
WU, Lingfei; US
WITBROCK, Michael, John; US
Agent:
GRAHAM, Timothy; GB
Priority Data:
15/689,79929.08.2017US
Title (EN) TEXT DATA REPRESENTATION LEARNING USING RANDOM DOCUMENT EMBEDDING
(FR) APPRENTISSAGE DE REPRÉSENTATION DE DONNÉES DE TEXTE PAR INCORPORATION DE DOCUMENTS ALÉATOIRES
Abstract:
(EN) Embodiments of the present invention provide a computer-implemented: method for performing unsupervised feature representation learning for text data. The method generates reference text data having a set of random text sequences:, in which each text sequence of set of random text sequences is of a random Iength and comprises a number of random words, and in which each random Iength is sampled from a minimum; length to a maximum length. The random words of each text sequence i in the set are drawn from a distribution. The method generates a feature matrix for raw text data based at least in part on a set of computed distances between the set of random text sequences and the raw text data. The method provides the feature matrix as an input to one or more machine earning models,
(FR) Des modes de réalisation de la présente invention se rapportent à un procédé mis en œuvre par ordinateur pour réaliser un apprentissage d'une représentation de caractéristiques non supervisées pour des données de texte. Le procédé génère des données de texte de référence ayant un ensemble de séquences de textes aléatoires, chaque séquence de texte de l'ensemble de séquences de textes aléatoires ayant une longueur aléatoire et comprenant un certain nombre de mots aléatoires, et chaque longueur aléatoire étant choisie entre une longueur minimale et une longueur maximale. Les mots aléatoires de chaque séquence de texte i dans l'ensemble sont tirés d'une distribution. Le procédé génère une matrice de caractéristiques pour des données de texte brutes sur la base au moins en partie d'un ensemble de distances calculées entre l'ensemble de séquences de textes aléatoires et les données de texte brutes. Le procédé fournit la matrice de caractéristiques en tant qu'entrée à un ou plusieurs modèles d'apprentissage automatique.
front page image
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
African Regional Intellectual Property Organization (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Office (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (EPO) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Publication Language: English (EN)
Filing Language: English (EN)