4 Classification Ascendante Hiérarchique

Contexte : pour cet exercice, on imagine que l'on travaille dans une entreprise
dont deux services sont connectés au ...... Cela sera corrigé sur la prochaine
version. ...... Exemple de partitionnement qu'il faudra adapter à votre
environnement.

Part of the document


Classification Ascendante Hiérarchique

1 Introduction

Classifier, c'est regrouper entre eux des objets similaires selon tel ou
tel critère. Les diverses techniques de classification (ou d'"analyse
typologique", de "taxonomie", ou "taxinomie" ou encore "analyse en
clusters" (amas)) visent toutes à répartir n individus, caractérisés par p
variables X1, X2, ..., Xp en un certain nombre m de sous-groupes aussi
homogènes que possible.
On distingue deux grandes familles de techniques de classification :

- Les classifications non hiérarchiques ou partitionnements, aboutissant à
la décomposition de l'ensemble de tous les individus en m ensembles
disjoints ou classes d'équivalence ; le nombre m de classes est fixé à
l'avance. Le résultat obtenu est alors une partition de l'ensemble des
individus, un ensemble de parties, ou classes de l'ensemble I des individus
telles que :
- toute classe soit non vide
- deux classes distinctes sont disjointes
- tout individu appartient à une classe.

- Les classifications hiérarchiques : pour un niveau de précision donné,
deux individus peuvent être confondus dans un même groupe, alors qu'à un
niveau de précision plus élevé, ils seront distingués et appartiendront à
deux sous-groupes différents. Le résultat d'une classification hiérarchique
n'est pas une partition de l'ensemble des individus. C'est une hiérarchie
de classes telles que :
- toute classe est non vide
- tout individu appartient à une (et même plusieurs) classes
- deux classes distinctes sont disjointes, ou vérifient une relation
d'inclusion (l'une d'elles est incluse dans l'autre)
- toute classe est la réunion des classes qui sont incluses dans elle.

Remarques. Ces méthodes jouent un rôle un peu à part dans l'univers des
méthodes statistiques. En effet :
- L'aspect inférentiel est ici inexistant ;
- Il existe un grand nombre de variantes de ces méthodes, et on peut
être amené à appliquer plusieurs de ces méthodes sur un même jeu de
données, jusqu'à obtenir une classification "qui fasse sens" ;
- Au contraire des méthodes factorielles, l'accent est souvent mis sur
les n individus et non sur les p variables qui les décrivent.

2 Exemple


1 Enoncé

On reprend le cas "Basket", qui a été présenté au paragraphe 1.6 page 26.

2 Choix des variables représentant les individus

Une première étape consiste à choisir une mesure de la "dissimilarité" ou
"distance" entre les sujets. Mais, les variables de départ (Taille en cm,
Poids, ...) s'expriment avec des unités différentes et prennent leurs
valeurs sur des échelles difficilement comparables. Nous choisissons donc
de représenter les individus à l'aide des variables centrées réduites
associées aux variables de départ (en utilisant l'écart type corrigé comme
dénominateur) :
| |TAI |VIT |DET |PAS |LEG |STA |
|I1 |-1,1125 |1,3473 |1,5025 |0,9702 |1,1665 |0,5535 |
|I2 |-0,0056 |-0,7615 |-0,7446 |0,9702 |-1,0845 |-0,9793 |
|I3 |1,1013 |-0,9724 |-0,6643 |1,5023 |-0,9514 |0,0426 |
|I4 |-0,8106 |1,1364 |0,9407 |1,2120 |1,1423 |0,5535 |
|I5 |-1,1125 |1,3473 |0,9407 |-0,2392 |1,2391 |1,0644 |
|I6 |-0,6093 |0,7146 |1,1012 |-0,2876 |0,9124 |0,8090 |
|I7 |-1,1125 |0,5038 |0,9407 |-0,4810 |1,3964 |-1,2347 |
|I8 |-1,3137 |1,3473 |1,4222 |-0,9648 |1,2028 |-2,0011 |
|I9 |-1,5150 |1,3473 |1,4222 |-1,4485 |1,2028 |-1,7456 |
|I10 |-0,0056 |-1,3941 |-0,8248 |1,0669 |-0,4673 |-1,2347 |
|I11 |0,4975 |-0,1289 |-0,2630 |1,2120 |-0,3705 |-0,2129 |
|I12 |-0,1062 |0,0820 |-0,6643 |-0,4810 |-0,2857 |0,2980 |
|I13 |0,3969 |-0,3398 |-0,6643 |-0,0941 |-0,5278 |1,0644 |
|I14 |1,1013 |-0,7615 |-0,8248 |-0,7229 |-1,0240 |0,5535 |
|I15 |1,0007 |-0,5506 |-1,0656 |-0,8197 |-0,9877 |0,2980 |
|I16 |1,1013 |-0,5506 |-1,2261 |-1,2067 |-0,6246 |0,8090 |
|I17 |1,1013 |-0,9724 |-0,6643 |-1,2067 |-1,0966 |0,2980 |
|I18 |1,4032 |-1,3941 |-0,6643 |1,0185 |-0,8424 |1,0644 |



3 Choix d'un indice de dissimilarité ou distance entre individus


Chaque individu statistique est ici représenté par 6 "coordonnées", à
savoir les valeurs des variables centrées réduites associées aux 6
variables TAI, VIT, DET, PAS, LEG, STA. Pour évaluer la dissimilarité entre
les individus, nous utiliserons la distance euclidienne. Autrement dit, si
les coordonnées des individus Ii et Ij sont données par : (xi1, xi2, xi3,
xi4, xi5, xi6) et (xj1, xj2, xj3, xj4, xj5, xj6), on a :
[pic]

Ainsi, la distance entre les sujets I1 et I2 est donnée par :
[pic]

Le tableau des distances mutuelles entre sujets est ainsi donné par :

Dist. Euclidiennes (Basket-CR.sta)
| |I1 |I2 |I3 |I4 |I5 |
|Paris (75) |PARI | |PS-Verts-MRG-MRC |Huchon |HUCH |
|Seine et Marne |SMAR | |UMP |Copé |COPE |
|(77) | | | | | |
|Yvelines (78) |YVEL | |UDF |Santini |SANT |
|Essonne (91) |ESSO | |FN |Le Pen |LEPE |
|Hauts de Seine |HTSS | |PC-AGR-AC |Buffet |BUFF |
|(92) | | | | | |
|Seine Saint-Denis |STDE | |LO-LCR |Laguiller|LAGU |
|(93) | | | | | |
|Val de Marne (94) |VDMA | |GE-Les Bleus |Pelegrin |PELE |
|Val d'Oise (95) |VDOI | |MNR |Bay |BAY |
| | | |Abstentions | |ABST |

Chargez le classeur Statistica Regionales-2004-idf.stw et réalisez une AFC
en calculant les coordonnées lignes et colonnes sur tous les facteurs et
faites calculer à Statistica les coordonnées lignes et colonnes.

Rendez active la feuille "Coordonnées lignes". Utilisez ensuite le menu
Statistiques - Techniques Exploratoires Multivariées - Classifications et
réalisez ensuite une classification portant sur les variables nommées
"coord.", en utilisant par exemple la distance euclidienne au carré et la
méthode de Ward.

Procédez de même pour la feuille "Coordonnées colonnes".

Vous devriez parvenir à des dendrogrammes tels que :
[pic] [pic]


3 CAH à partir d'indices de (dis)similarité


1 Indices de dissimilarité et distances


Avec Statistica, la CAH peut être réalisée aussi bien à partir de variables
numériques décrivant les objets à classer qu'à partir de d'un tableau
donnant les "distances" mutuelles entre les objets.

On peut utiliser d'autres indices de dissimilarité que ceux qui sont
proposés par le logiciel (§ 4.3.2). En fait, un indice de dissimilarité
doit simplement satisfaire les conditions suivantes :
- non-négativité : [pic]
- symétrie : [pic]
- normalisation : [pic]
Un indice de dissimilarité est une "vraie" distance, s'il vérifie la
propriété :
[pic]
et l'inégalité triangulaire :
[pic].
La plupart des "distances" proposées par Statistica sont de véritables
distances.

Dans les études menées en sciences humaines, on mesure fréquemment la
proximité entre deux objets en évaluant le nombre de propriétés qu'ils ont
en commun. Par exemple, dans des réponses à des questions ouvertes, on
pourra évaluer la "similarité" entre deux mots en comptant le nombre de co-
occurrences de ces deux mots dans les réponses analysées. De même, la
proximité entre deux sujets pourra être mesurée en comptant le nombre de
mots-clés communs que l'on trouve dans leurs réponses.

De nombreux indices de dissimilarité (ou au contraire de similarité) ont
été proposés dans le cas de variables qualitatives (à deux modalités, ou
après codage disjonctif). Par exemple, si les individus sont décrits par K
variables dichotomiques (oui/non), on peut introduire :
[pic]

On peut proposer par exemple, comme indice de dissimilarité :
[pic]
ou au contraire, comme indice de similarité :
[pic]
Un indice de similarité s peut être converti en distance d par la relation
:
[pic]


2 Exemple

L'exemple qui suit est extrait de :
Doise W., Clemence A., Lorenzi-Cioldi F., Représentations Sociales et
Analyses de Données, Presses Universitaires de Grenoble, 1992.

On demandait aux sujets interrogés d'indiquer de quoi dépend la paie d'un
travailleur, en cochant la (ou les) réponse(s) qui correspondai(en)t le
mieux à leur opinion. Les items proposés étaient les suivants : de son
rendement, de sa situation familiale, des responsabilités qu'il exerce, de
sa formation, du coût de la vie, de son niveau hiérarchique, de son patron,
de son ancienneté, de l'entreprise, du secteur où il travaille, de ses
idées politiques. Le nombre de répondants est égal à 181.

On donne ci-dessous le tableau des co-occurrences (nombre de sujets ayant
accepté simultanément les deux items), tel qu'il figure dans la publication
citée.

| |Rend |Fami |Resp |Form |
|S1 |1 |1 |0 | |
|S2 |1 |1 |1 | |
|S3 |1 |0 |0 | |
|S4 |0 |1 |1 | |
| |... | | | |


Deux remarques en vue de réaliser le tableau des co-occurrences à l'aide de
Statistica :

- Statistica permet d'effectuer certains traitements sur des tableaux de
réponses multiples, à l'aide de la méthode Statistiques - Statistiques
Elémentaires - Tableaux de réponses multiples. Il permet notamment de
croiser les réponses multiples à deux questions distinctes.

- Dans la situation proposée, les co-occurrences sont obtenues en croisant
le tableau des répons