WIPO logo
Mobile | Deutsch | Español | Français | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Search International and National Patent Collections
World Intellectual Property Organization
Search
 
Browse
 
Translate
 
Options
 
News
 
Login
 
Help
 
Machine translation
1. (WO2014068293) TEXT ANALYSIS
Latest bibliographic data on file with the International Bureau   

Pub. No.:    WO/2014/068293    International Application No.:    PCT/GB2013/052806
Publication Date: 08.05.2014 International Filing Date: 28.10.2013
IPC:
G06F 17/27 (2006.01)
Applicants: LANCASTER UNIVERSITY BUSINESS ENTERPRISES LIMITED [GB/GB]; University House Lancaster University Lancaster Lancashire LA1 4YW (GB)
Inventors: BARON, Alistair; (GB).
QASEMIZADEH, Behrang; (GB).
RAYSON, Paul Edward; (GB).
WALKERDINE, James Michael; (GB).
GREENWOOD, Phil James; (GB).
RASHID, Awais Muhammad; (GB)
Agent: MARKS & CLERK LLP; 1 New York Street Manchester Greater Manchester M1 4HD (GB)
Priority Data:
1219594.7 31.10.2012 GB
Title (EN) TEXT ANALYSIS
(FR) ANALYSE DE TEXTE
Abstract: front page image
(EN)A method of processing text having an associated source type to generate data indicative of a property associated with said text, said text comprising a plurality of tokens. The method comprises generating a plurality of metrics of said text based upon said plurality of tokens, the plurality of metrics comprising token count data for said plurality of tokens, part of speech data for said plurality of tokens, semantic field data for said plurality of tokens and at least one metric indicative of a property of the text; selecting reference data from a plurality of reference data based upon the source type associated with the text processing each of said plurality of metrics of said text based upon the reference data to generate data indicating a relationship between said plurality of metrics and said reference data; and combining the data indicating a relationship between the respective ones of the plurality of metrics and said reference data to generate the data indicative of a property associated with said text. The method may be applied to author profiling.
(FR)L'invention concerne un procédé de traitement de texte, qui présente un type source associé, afin de générer des données indiquant une propriété associée à ce texte, le texte comprenant une pluralité d'unités lexicales. Le procédé comprend la génération d'une pluralité de mesures du texte, sur la base de la pluralité d'unités lexicales, la pluralité de mesures comprenant des données de comptage d'unités lexicales pour ladite pluralité d'unités lexicales, une partie de données vocales pour la pluralité d'unités lexicales, des données de champ sémantique pour la pluralité d'unités lexicales et au moins une mesure indiquant une propriété du texte ; la sélection de données de référence parmi une pluralité de données de référence, sur la base du type source associé au texte ; le traitement de chaque mesure parmi la pluralité de mesures du texte, sur la base des données de référence, afin de générer des données indiquant une relation entre la pluralité de mesures et les données de référence ; et la combinaison des données indiquant une relation entre certaines mesures respectives parmi la pluralité de mesures et les données de référence afin de générer les données indiquant une propriété associée au texte. Le procédé peut être appliqué au profilage d'auteurs.
Designated States: AE, AG, AL, AM, AO, AT, AU, AZ, BA, BB, BG, BH, BN, BR, BW, BY, BZ, CA, CH, CL, CN, CO, CR, CU, CZ, DE, DK, DM, DO, DZ, EC, EE, EG, ES, FI, GB, GD, GE, GH, GM, GT, HN, HR, HU, ID, IL, IN, IR, IS, JP, KE, KG, KN, KP, KR, KZ, LA, LC, LK, LR, LS, LT, LU, LY, MA, MD, ME, MG, MK, MN, MW, MX, MY, MZ, NA, NG, NI, NO, NZ, OM, PA, PE, PG, PH, PL, PT, QA, RO, RS, RU, RW, SA, SC, SD, SE, SG, SK, SL, SM, ST, SV, SY, TH, TJ, TM, TN, TR, TT, TZ, UA, UG, US, UZ, VC, VN, ZA, ZM, ZW.
African Regional Intellectual Property Organization (BW, GH, GM, KE, LR, LS, MW, MZ, NA, RW, SD, SL, SZ, TZ, UG, ZM, ZW)
Eurasian Patent Organization (AM, AZ, BY, KG, KZ, RU, TJ, TM)
European Patent Office (AL, AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HR, HU, IE, IS, IT, LT, LU, LV, MC, MK, MT, NL, NO, PL, PT, RO, RS, SE, SI, SK, SM, TR)
African Intellectual Property Organization (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, GW, KM, ML, MR, NE, SN, TD, TG).
Publication Language: English (EN)
Filing Language: English (EN)