Analyse aux analyses multidimensionnelles
3.4 Exercices et prolongements. 3.4.1 Structures possibles pour les données ...
3.4.2 Exercice à traiter à l'aide de Statistica. Le tableau de contingence suivant
..... 4) Dans le tableau des résultats relatifs aux lignes, la colonne "masse"
indique la valeur 0,2963 pour l'individu-ligne "Ouvriers". Comment peut-on
retrouver cette ...
Part of the document
Analyse Factorielle des Correspondances
1 Introduction L'analyse factorielle des correspondances (AFC), ou analyse des
correspondances simples, est une méthode exploratoire d'analyse des
tableaux de contingence. Elle a été développé essentiellement par J.-P.
Benzecri durant la période 1970-1990. Soient deux variables nominales X et Y, comportant respectivement p et q
modalités. On a observé les valeurs de ces variables sur une population et
on dispose d'un tableau de contingence à p lignes et q colonnes donnant les
effectifs conjoints c'est-à-dire les effectifs observés pour chaque
combinaison d'une modalité i de X et d'une modalité j de Y.
Les valeurs de ce tableau seront notées [pic], l'effectif total sera noté
N. L'ACP vise à analyser ce tableau en apportant des réponses à des questions
telles que :
- Y a-t-il des lignes du tableau (modalités de X) qui se "ressemblent",
c'est-à-dire telles que les distributions des modalités de Y soient
analogues ?
- Y a-t-il des lignes du tableau (modalités de X) qui s'opposent, c'est-
à-dire telles que les distributions des modalités de Y soient très
différentes ?
- Mêmes questions pour les colonnes du tableau.
- Y a-t-il des associations modalité de X - modalité de Y qui
s'attirent (effectif conjoint particulièrement élevé) ou qui se
repoussent (effectif conjoint particulièrement faible) ?
La méthode se fixe également comme but de construire des représentations
graphiques mettant en évidence ces propriétés des données. 2 Exemple 1 Enoncé Réf. Examen de Statistiques de mai 2004, Module MULT, Maîtrise de
Psychologie, Université René Descartes. Site Web :
http://piaget.psycho.univ-paris5.fr/Statistiques/ Les données qui suivent sont constituées par les résultats du premier tour
des élections régionales de 2004 pour la région Ile de France. Pour chacun
des huit départements de l'Ile de France (en lignes), on a les effectifs de
suffrages pour chacune des huit listes candidates ainsi que les effectifs
d'abstentions (en colonnes). L'objectif est d'analyser la structure des
votes ainsi que les liaisons entre listes et départements. Voici les codes
de désignation des départements et des listes : |Départements |Code | |Listes |Tête de |Code |
| | | | |liste | |
|Paris (75) |PARI | |PS-Verts-MRG-MRC |Huchon |HUCH |
|Seine et Marne |SMAR | |UMP |Copé |COPE |
|(77) | | | | | |
|Yvelines (78) |YVEL | |UDF |Santini |SANT |
|Essonne (91) |ESSO | |FN |Le Pen |LEPE |
|Hauts de Seine |HTSS | |PC-AGR-AC |Buffet |BUFF |
|(92) | | | | | |
|Seine Saint-Denis |STDE | |LO-LCR |Laguiller|LAGU |
|(93) | | | | | |
|Val de Marne (94) |VDMA | |GE-Les Bleus |Pelegrin |PELE |
|Val d'Oise (95) |VDOI | |MNR |Bay |BAY |
| | | |Abstentions | |ABST | Données : résultats du premier tour des régionales 2004 en Ile de France | |HUCHON |COPE |SANTINI |LEPEN |BUFFET |
|1 |0,122976 |0,015123 |63,58 |63,58 |93020 |
|2 |0,068237 |0,004656 |19,58 |83,15 |28640 |
|3 |0,058363 |0,003406 |14,32 |97,47 |20951 |
|4 |0,018685 |0,000349 |1,47 |98,94 |2147 |
|5 |0,012321 |0,000152 |0,64 |99,58 |934 |
|6 |0,008701 |0,000076 |0,32 |99,90 |466 |
|7 |0,004936 |0,000024 |0,10 |100,00 |150 | [pic] Le choix du nombre d'axes factoriels à conserver se fait comme dans le cas
de l'ACP. Ici, on observe une brusque décroissance des valeurs propres
entre la 3è et la 4è valeur propre. On retient donc les 3 premiers axes
factoriels.
1 Résultats relatifs aux individus-lignes
Coordonnées Ligne et Contributions à l'Inertie (idf.sta)
Standardisation : Profils ligne et colonne
| |Ligne N° |Coord. |Coord. |Coord.Dim|Masse |Qualité |Inertie |
| | |Dim.1 |Dim.2 |.3 | | |Relative |
|PARI |-0,1050 |0,0027 |0,1016 |0,0107 |-0,0068 |-0,0017 |-0,0007 |
|SMAR |0,0821 |-0,1181 |-0,0332 |0,0231 |0,0077 |-0,0115 |-0,0004 |
|YVEL |-0,0960 |-0,0397 |-0,0555 |0,0029 |-0,0015 |0,0148 |-0,0062 |
|ESSO |0,0183 |-0,0393 |0,0355 |-0,0442 |0,0149 |-0,0026 |-0,0016 |
|HTSS |-0,1586 |0,0824 |-0,0752 |-0,0042 |-0,0011 |-0,0104 |0,0019 |
|STDE |0,2478 |0,0954 |-0,0017 |0,0006 |-0,0096 |-0,0026 |-0,0070 |
|VDMA |0,0706 |0,0667 |0,0115 |0,0151 |0,0208 |0,0100 |0,0066 |
|VDOI |0,0854 |-0,0513 |-0,0206 |-0,0134 |-0,0231 |0,0050 |0,0092 | On vérifie que :
[pic]
De même, on avait établi que :
[pic]
Et l'on a :
[pic] La même propriété s'applique aux colonnes. Le tableau complet des scores
factoriels des colonnes est donné par :
| |Facteur 1|Facteur 2|Facteur 3|Facteur 4|Facteur 5|Facteur 6|Facteur 7|
|HUCHON |-0,0421 |-0,0165 |0,1024 |-0,0157 |0,0024 |-0,0023 |-0,0020 |
|COPE |-0,1305 |-0,0513 |-0,0089 |0,0325 |0,0108 |-0,0038 |0,0013 |
|SANTINI |-0,2388 |0,0955 |-0,0822 |-0,0225 |-0,0035 |-0,0032 |-0,0009 |
|LEPEN |0,1628 |-0,1146 |-0,0883 |-0,0174 |0,0017 |-0,0101 |-0,0034 |
|BUFFET |0,2581 |0,2259 |0,0117 |0,0178 |0,0259 |-0,0069 |-0,0027 |
|LAGU |0,1655 |-0,0084 |-0,0066 |-0,0212 |-0,0020 |-0,0297 |0,0204 |
|PELEG |0,0332 |-0,0714 |-0,0625 |-0,0499 |0,0601 |0,0423 |0,0148 |
|BAY |0,1514 |-0,1198 |-0,1211 |-0,0160 |0,0350 |-0,0014 |-0,0356 |
|ABSTEN |0,0538 |0,0058 |-0,0059 |0,0055 |-0,0100 |0,0060 |0,0004 | On avait établi que :
[pic]
On retrouve ici :
[pic] La proximité entre un point-ligne L et un point-colonne C ne possède pas
d'interprétation géométrique immédiate. En revanche, l'angle de sommet O
dont les côtés passent par L et C a la propriété suivante :
- si l'angle (OL, OC) est aigu, la modalité-ligne L et la modalité
colonne C s'attirent (taux de liaison positif)
- si l'angle (OL, OC) est obtus, la modalité-ligne L et la modalité
colonne C se repoussent (taux de liaison négatif)
- si l'angle (OL, OC) est droit, la modalité-ligne L et la modalité
colonne C n'interagissent pas (taux de liaison voisin de 0). 2 Reconstitution des données Il est possible de reconstituer les données à partir des scores factoriels
des lignes et des colonnes. En effet, on peut montrer la relation suivante
entre les taux de liaison tij, les scores factoriels des lignes, les scores
factoriels des colonnes et les valeurs propres : [pic] Par exemple, le taux de liaison entre PARI et la liste HUCHON peut être
retrouvé à l'aide du calcul suivant : [pic] Connaissant les profils moyens des lignes et des colonnes, et l'effectif
total N, l'ensemble des données peut ainsi être retrouvé.
2 Interprétation des résultats de l'AFC Au niveau global, on pourra noter que les inerties relatives les plus
fortes sont observées sur la Seine St-Denis, les Hauts de Seine et Paris,
pour les départements, et sur Santini, Buffet et Le Pen pour les listes. Ce
sont donc essentiellement ces modalités lignes et modalités colonnes qui
vont apparaître dans l'étude qui suit. En revanche, des modalités telles
que l'abstention, proches du profil moyen, n'apparaîtront pas. L'interprétation pourra être faite axe par axe, en étudiant d'abord
séparément lignes et colonnes.
Pour chaque axe, on pourra dresser un tableau des individus qui ont apporté
une contribution supérieure à la moyenne à la formation de cet axe. 1 Interprétation des axes
1 Pour le premier axe : - Points lignes :
|- |+ |
|HTSS (22%) |STDE (42%) |
|PARI (13%) | |
- Points colonnes :
|- |+ |
|SANTINI (36%)|BUFFET (19%) |
|COPE (17%) |LE PEN (13%) | Le premier axe oppose Paris et les Hauts de Seine à la Seine St Denis. Si
on considère le positionnement des autres départements, cet axe oppose
Paris et la banlieue Ouest (socialement assez favorisée) à la banlieue du
nord et de l'est (socialement moins favorisée). Pour les modalités colonnes, cet axe oppose deux listes proches de la
majorité gouvernementale à deux listes de "forte opposition", voire de vote
protestataire. La synthèse entre l'analyse des lignes et des colonnes associe le vote
protestataire à la Seine St Denis, tandis que le vote pour la majorité
gouvernementale est mieux représenté dans l'ouest de la région.
2 Pour le deuxième axe : - Points lignes :
|- |+ |
|SMAR (35%) |STDE (20%) |
| |HTSS (19%) |
- Points colonnes :
|- |+ |
|LEPEN (20%) |BUFFET (47%) |
| |SANTINI (19%) |
Cet axe oppose la Seine et Marne (grande banlieue, urbanisation plus
diffuse et zones rurales) aux Hauts de Seine et à la Seine St Denis, très
urbanisées. Le positionnement de l'ensemble des départements montre même
une opposition entre les départements de la "grande couronne" et ceux de la
"petite couronne". Pour les modalités colonnes, cet axe oppose la liste Le Pen aux listes
Sant