Некоторое содержание этого приложения в настоящий момент недоступно.
Если эта ситуация сохраняется, свяжитесь с нами по адресуОтзывы и контакты
1. (WO2017040663) CREATING A TRAINING DATA SET BASED ON UNLABELED TEXTUAL DATA
Новейшие библиограф. данные, касающиеся досье в Международном бюро   

№ публикации: WO/2017/040663 № международной заявки: PCT/US2016/049700
Дата публикации: 09.03.2017 Дата международной подачи: 31.08.2016
МПК:
G06F 7/00 (2006.01)
G ФИЗИКА
06
Обработка данных; вычисление; счет
F
Обработка цифровых данных с помощью электрических устройств
7
Способы и устройства для обработки данных с воздействием на порядок их расположения или на содержание обрабатываемых данных
Заявители:
SKYTREE, INC. [US/US]; 1731 Technology Dr., Suite 700 San Jose, CA 95110, US
Изобретатели:
PENDAR, Nick; US
WANG, Zhuang; US
Агент:
HOLMES, Matthew; US
GARNER, Casey; US
BOHN, Michael; US
NORSETH, Peter; US
ALSBURY, Paige; US
Дата приоритета:
62/213,09101.09.2015US
Название (EN) CREATING A TRAINING DATA SET BASED ON UNLABELED TEXTUAL DATA
(FR) CRÉATION D'UN ENSEMBLE DE DONNÉES D'APPRENTISSAGE BASÉ SUR DES DONNÉES TEXTUELLES NON ÉTIQUETÉES
Реферат:
(EN) A system and method are disclosed for obtaining a plurality of unlabeled text documents; obtaining an initial concept; obtaining keywords from a knowledge source based on the initial concept; scoring the plurality of unlabeled documents based at least in part on the initial keywords; determining a categorization of the documents based on the scores; performing a first feature selection and creating a first vector space representation of each document in a first category and a second category, the first and second categories based on the scores, the first vector space representation serving as one or more labels for an associated unlabeled textual document; and generating the training set including a subset of the obtained unlabeled textual documents, the subset of the obtained unlabeled documents including a documents belonging to the first category and documents belonging to the second category.
(FR) La présente invention concerne un système et un procédé destinés à obtenir une pluralité de documents texte non étiquetés; obtenir un concept initial; obtenir des mots-clés à partir d'une source de connaissances sur la base du concept initial; noter la pluralité de documents non étiquetés sur la base au moins en partie des mots-clés initiaux; déterminer une catégorisation des documents sur la base des notes; effectuer une première sélection de caractéristiques et créer une première représentation d'espace vectoriel de chaque document dans une première catégorie et dans une seconde catégorie, les première et seconde catégories étant basées sur les notes, la première représentation d'espace vectoriel servant comme une ou plusieurs étiquettes pour un document texte non étiqueté associé; et produire l'ensemble d'apprentissage comprenant un sous-ensemble des documents texte non étiquetés obtenus, le sous-ensemble des documents non étiquetés obtenus comprenant un document appartenant à la première catégorie et des documents appartenant à la seconde catégorie.
front page image
Указанные государства: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW
Африканская региональная организация промышленной собственности (АРОПС) (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, ST, SZ, TZ, UG, ZM, ZW)
Евразийская патентная организация (AM, AZ, BY, KG, KZ, RU, TJ, TM)
Европейское патентное ведомство (ЕПВ) (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
Африканская организация интеллектуальной собственности (OAPI) (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG)
Язык публикации: Английский (EN)
Язык подачи: Английский (EN)