WIPO logo
Mobile | Deutsch | English | Español | 日本語 | 한국어 | Português | Русский | 中文 | العربية |
PATENTSCOPE

Recherche dans les collections de brevets nationales et internationales
World Intellectual Property Organization
Recherche
 
Options de navigation
 
Traduction
 
Options
 
Quoi de neuf
 
Connexion
 
Aide
 
Traduction automatique
1. (WO2003090117) PROCÉDÉ D'ANALYSE DE DONNÉES
Dernières données bibliographiques dont dispose le Bureau international   

N° de publication :    WO/2003/090117    N° de la demande internationale :    PCT/GB2003/001471
Date de publication : 30.10.2003 Date de dépôt international : 04.04.2003
CIB :
G06F 17/30 (2006.01), G06K 9/62 (2006.01), G06K 9/68 (2006.01)
Déposants : BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY [GB/GB]; 81 Newgate Street, London EC1A 7AJ (GB) (Tous Sauf US).
HO, Colin, Kok, Meng [SG/CN]; (CN) (US Seulement).
NAUCK, Detlef, Daniel [DE/GB]; (GB) (US Seulement)
Inventeurs : HO, Colin, Kok, Meng; (CN).
NAUCK, Detlef, Daniel; (GB)
Mandataire : LIDBETTER, Timothy, Guy, Edwin; BT Group Legal, Intellectual Property Department, ppC5A, BT Centre, 81 Newgate Street, London EC1A 7AJ (GB)
Données relatives à la priorité :
02252733.7 18.04.2002 EP
Titre (EN) DATA ANALYSIS METHOD
(FR) PROCÉDÉ D'ANALYSE DE DONNÉES
Abrégé : front page image
(EN)Current classification methods attempt to classify each classification value into a separate class. Consequently, a lot of effort is dedicated to distinguishing between two or more similar classification objects, meaning that supervised learning procedures are slow and produce classifiers that are excessively large. Moreover, the classifiers are often difficult to understand, and take a long time to be generated. Embodiments of the invention are concerned with reducing the number of classification values that can be used to classify a data item. Relationships between classification values are identified on the basis of attribute values in a set of training data, and those classification values that are determined to be related to one another are subsumed into a single classification group. An embodiment of the invention is thus concerned with identifying groups of classification values corresponding to a set of data, where each data item in the set is characterised by a plurality of attributes, and each attribute has one of a plurality of attribute values associated therewith. The method comprises the steps of: (i) selecting an attribute; (ii) identifying, on the basis of the distribution of attribute values, two classification values that are least similar to one another and allocating a first identified classification value to a first group and a second identified classification value to a second group; (iii) allocating each unidentified classification value to one of the groups in dependence on correlation between the unidentified classification value and the first and second identified classification values;(iv) evaluating an association between the first and second groups and the selected attribute;(v) repeating steps (i) to (iv) for each of at least some of the plurality of attributes;(vi) comparing associations evaluated at step (iv) and selecting first and second groups corresponding to the weakest association; (vii) for each of the first and second groups repeating steps (i) to (vi) for the classification values therein, until the association evaluated at step (iv) falls below a predetermined threshold value. Essentially classification groups are repeatedly analysed with respect to a range of attributes so as to identify all possible groupings of classification values. For example, classification values Daily Mail, Daily Express, The Times, The Guardian, Vogue, New Scientist, Economist, Cosmopolitan, FHM, House and Garden are analysed with respect to a selection of attributes (e.g. sex, age, occupation etc.). Assuming that the analysis identifies the classification values as falling within two classification groups: [Daily Mail, Daily Express, Cosmopolitan, FHM] and [The Times, The Guardian, Vogue, New Scientist, Economist, House and Garden], each of these groups is then analysed with respect to the same, or a different, selection of attributes. This second round of analysis may identify further clusters of classification values - e.g. the analysis could show that the classification values in the latter group are clustered into two distinct groups: [House and Garden, Vogue] and [The Times, The Guardian, New Scientist, Economist]. After each round of analysis an association between the groups and attributes is measured and is compared with a threshold; this comparison identifies whether or not the groups are sufficiently different as to justify splitting up the classification values into groups.
(FR)L'invention concerne des procédés de classification actuels permettant de classer chaque valeur de classification dans une classe séparée. De ce fait, un grand nombre d'efforts sont effectués pour faire une distinction entre deux ou plusieurs objets de classification identiques, ce qui signifie que des procédures d'apprentissage contrôlées sont lentes et produisent des classificateurs excessivement grands. De plus, ces classificateurs sont souvent difficiles à comprendre et leur génération prend beaucoup de temps. Dans des modes de réalisation, l'invention concerne la réduction du nombre de valeurs de classification pouvant être utilisées pour classifier un article de données. Les relations entre les valeurs de classification sont identifiées en fonction de valeurs d'attributs dans un ensemble de données d'apprentissage, et ces valeurs de classification déterminées pour être associées les unes aux autres sont subsumées dans un seul groupe de classification. Dans un mode de réalisation, l'invention concerne l'identification de groupes de valeurs de classification correspondant à un ensemble de données, chaque article de données de l'ensemble étant caractérisé par une pluralité d'attributs, et chaque attribut étant associé à une valeur d'attribut. Le procédé consiste i) à sélectionner un attribut; ii) à identifier, en fonction de la répartition des valeurs d'attributs, deux valeurs de classification qui sont au moins similaires et à affecter une première valeur de classification identifiée à un premier groupe et une seconde valeur de classification identifiée à un second groupe; iii) à affecter chaque valeur classification non identifiée à l'un des groupes en fonction d'une corrélation entre la valeur classification non identifiée et les première et seconde valeurs de classification identifiées; iv) à évaluer une association entre les premier et second groupes et l'attribut sélectionné; v) à répéter les étapes i) à iv) pour au moins certains attributs de la pluralité; vi) à comparer les associations évaluées à l'étape iv) et à sélectionner un premier et un second groupes correspondant à l'association la plus faible; vii) à répéter, pour chacun des premier et second groupes les étapes i) à (vi) pour les valeurs de classification desdits groupes, jusqu'à ce que l'association évaluée à l'étape iv) tombe en-dessous d'une valeur seuil prédéterminée. Les groupes de classification sont essentiellement analysés de manière répétée par rapport à une plage d'attributs de façon à identifier tous les groupements de valeurs de classification possibles. Par exemple, des valeurs de classification du Daily Mail, Daily Express, Times, Guardian, Vogue, New Scientist, Economist, Cosmopolitan, FHM, House and Garden sont analysées par rapport à une sélection attributs (par exemple, sexe, âge, occupation, etc.). On suppose de l'analyse identifie les valeurs de classification telles qu'elles entrent dans deux groupes de classification: (Daily Mail, Daily Express, Cosmopolitan, FHM) et (Times, Guardian, Vogue, New Scientist, Economist, House and Garden), chacun de ces groupes étant analysé en fonction d'une sélection d'attributs identiques ou différents. Ce second volet de l'analyse permet d'identifier des grappes de valeurs de classification, l'analyse pouvant montrer, par exemple, que les valeurs de classification dans le dernier groupe sont groupées en deux groupes distincts: (House and Garden, Vogue) et (Times, Guardian, New Scientist, Economist). Après chaque volet de l'analyse, on mesure une association entre les groupes et les attributs et on la compare avec un seuil, cette comparaison identifiant si les groupes sont suffisamment différents ou non pour justifier le fractionnement des valeurs de classification en groupes.
États désignés : CA, US.
Office européen des brevets (OEB) (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL, PT, RO, SE, SI, SK, TR).
Langue de publication : anglais (EN)
Langue de dépôt : anglais (EN)