Certains contenus de cette application ne sont pas disponibles pour le moment.
Si cette situation persiste, veuillez nous contacter àObservations et contact
1. (WO2019043540) APPRENTISSAGE DE REPRÉSENTATION DE DONNÉES DE TEXTE PAR INCORPORATION DE DOCUMENTS ALÉATOIRES
Dernières données bibliographiques dont dispose le Bureau international    Formuler une observation

N° de publication : WO/2019/043540 N° de la demande internationale : PCT/IB2018/056441
Date de publication : 07.03.2019 Date de dépôt international : 24.08.2018
CIB :
G06F 17/27 (2006.01)
G PHYSIQUE
06
CALCUL; COMPTAGE
F
TRAITEMENT ÉLECTRIQUE DE DONNÉES NUMÉRIQUES
17
Equipement ou méthodes de traitement de données ou de calcul numérique, spécialement adaptés à des fonctions spécifiques
20
Manipulation de données en langage naturel
27
Analyse automatique, p.ex. analyse grammaticale, correction orthographique
Déposants :
INTERNATIONAL BUSINESS MACHINES CORPORATION [US/US]; New Orchard Road Armonk, New York 10504, US
IBM UNITED KINGDOM LIMITED [GB/GB]; PO Box 41, North Harbour Portsmouth Hampshire PO6 3AU, GB (MG)
IBM (CHINA) INVESTMENT COMPANY LIMITED [CN/CN]; 25/F, Pangu Plaza No.27, Central North 4th Ring Road, Chaoyang District, Beijing 100101, CN (MG)
Inventeurs :
WU, Lingfei; US
WITBROCK, Michael, John; US
Mandataire :
GRAHAM, Timothy; GB
Données relatives à la priorité :
15/689,79929.08.2017US
Titre (EN) TEXT DATA REPRESENTATION LEARNING USING RANDOM DOCUMENT EMBEDDING
(FR) APPRENTISSAGE DE REPRÉSENTATION DE DONNÉES DE TEXTE PAR INCORPORATION DE DOCUMENTS ALÉATOIRES
Abrégé :
(EN) Embodiments of the present invention provide a computer-implemented: method for performing unsupervised feature representation learning for text data. The method generates reference text data having a set of random text sequences:, in which each text sequence of set of random text sequences is of a random Iength and comprises a number of random words, and in which each random Iength is sampled from a minimum; length to a maximum length. The random words of each text sequence i in the set are drawn from a distribution. The method generates a feature matrix for raw text data based at least in part on a set of computed distances between the set of random text sequences and the raw text data. The method provides the feature matrix as an input to one or more machine earning models,
(FR) Des modes de réalisation de la présente invention se rapportent à un procédé mis en œuvre par ordinateur pour réaliser un apprentissage d'une représentation de caractéristiques non supervisées pour des données de texte. Le procédé génère des données de texte de référence ayant un ensemble de séquences de textes aléatoires, chaque séquence de texte de l'ensemble de séquences de textes aléatoires ayant une longueur aléatoire et comprenant un certain nombre de mots aléatoires, et chaque longueur aléatoire étant choisie entre une longueur minimale et une longueur maximale. Les mots aléatoires de chaque séquence de texte i dans l'ensemble sont tirés d'une distribution. Le procédé génère une matrice de caractéristiques pour des données de texte brutes sur la base au moins en partie d'un ensemble de distances calculées entre l'ensemble de séquences de textes aléatoires et les données de texte brutes. Le procédé fournit la matrice de caractéristiques en tant qu'entrée à un ou plusieurs modèles d'apprentissage automatique.
front page image
États désignés : AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DJ, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JO, JP, KE, KG, KH, KN, KP, KR, KW, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Organisation régionale africaine de la propriété intellectuelle (ARIPO) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Office eurasien des brevets (OEAB) (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Office européen des brevets (OEB (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Organisation africaine de la propriété intellectuelle (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)