Analyse aux analyses multidimensionnelles
Math. Sciences. Français. Latin. Musique. Jean. 6. 6. 5. 5,5. 8. Aline. 8. 8. 8. 8. 9.
Annie. 6. 7. 11. 9,5. 11. Monique. 14,5. 14,5. 15,5. 15. 8. Didier. 14. 14. 12. 12. 10.
André. 11 ...... Utilise-t-on les variances et covariances non corrigées (SC/N) ou
les variances et covariances corrigées (SC/(N-1)). ..... 1.6 Exemples et exercices.
Part of the document
Introduction aux analyses multidimensionnelles
Présentation de l'enseignement
Bibliographie
Bry, X. : Analyses factorielles simples, 1995, Ed. Economica
Bry, X. : Analyses factorielles multiples, 1996, Ed. Economica
Cibois P. : L'analyse factorielle, 2000, PUF, Coll. Que sais-je N° 2095
Crucianu M., Asselin de Beauville J-P., Boné R. : Méthodes factorielles
pour l'analyse de données
Doise W., Clémence A., Lorenzi-Cioldi F. : Représentations sociales et
analyses de données, 1992, PUG, Grenoble
Escoffier B., Pagès J.C. : Analyses factorielles simples et multiples,
1998, Dunod
Lebart L., Morineau A., Piron M. : Statistique exploratoire
multidimensionnelle, 2000, Dunod
Rouanet H., Le Roux B. : Analyse des données multidimensionnelles, 1993,
Dunod Autres sources de documentation Site internet de ce cours :
http://geai.univ-brest.fr/~carpenti/ Autres sites à visiter :
Le site de l'enseignement de Statistiques de l'Université de Paris 5
http://piaget.psycho.univ-paris5.fr/Statistiques/
Documents rédigés par R. Palm (aux formats Postscript et Pdf) :
http://www.fsagx.ac.be/si/NotesdeStatetInfo.htm
Programme Analyse d'un protocole multinumérique. Nuage euclidien. Inertie et variance
d'un nuage. Directions principales d'un nuage. Analyse en composantes
principales.
Description d'un tableau de contingence : effectifs, fréquences, taux de
liaison. Coefficient de contingence. Analyse factorielle des
correspondances.
Analyse des correspondances multiples. Tableau disjonctif de Burt. Nuage
des modalités. Nuage des individus, des patrons.
Classification ascendante hiérarchique. Distances et indices de similarité.
Indices d'agrégation. Travaux dirigés en salle d'ordinateurs. Réalisation d'analyses
multidimensionnelles à l'aide d'un logiciel de traitements statistiques :
analyse en composantes principales, analyse factorielle des
correspondances, analyse des correspondances multiples, classifications
ascendantes hiérarchiques. Interprétation des résultats numériques et
graphiques fournis par le logiciel. Contrôle des connaissances : (contrôle continu)
Examen écrit (2 heures) (70%) + Evaluation de TD (30%)
Analyse en composantes principales ou ACP 1 Introduction
On a observé p variables sur n individus. On dit qu'il s'agit d'un
protocole multivarié.
A la différence de la régression linéaire, aucune variable ne joue ici un
rôle particulier. On s'intéresse à l'étude de la variabilité observée sur
l'ensemble des individus ou l'ensemble des variables, avec l'idée suivante
: trouver des variables abstraites, en petit nombre, reproduisant de la
façon la moins déformée possible la variabilité observée.
Du point de vue des variables : on cherche à remplacer les p variables par
q nouvelles variables résumant au mieux le protocole, avec q ? p et si
possible q=2. Nous verrons que l'ACP permet de résumer un ensemble de
variables corrélées en un nombre réduit de variables (appelées facteurs)
non corrélées. Du point de vue des individus : chaque individu est représenté par un point
dans un espace de dimension p. On peut calculer les distances
(euclidiennes) entre deux individus, entre un individu et le point moyen du
nuage, etc. On cherche alors à trouver une projection des individus dans un
espace de dimension q?p, respectant au mieux les distances entre les
individus (une "carte", la moins déformée possible).
2 Mini-exemple
Ci-dessous, un tableau de notes attribuées à 9 sujets dans 5 matières. |Sujet |Math |Sciences |Français |Latin |Musique |
|Jean |6 |6 |5 |5,5 |8 |
|Aline |8 |8 |8 |8 |9 |
|Annie |6 |7 |11 |9,5 |11 |
|Monique |14,5 |14,5 |15,5 |15 |8 |
|Didier |14 |14 |12 |12 |10 |
|André |11 |10 |5,5 |7 |13 |
|Pierre |5,5 |7 |14 |11,5 |10 |
|Brigitte |13 |12,5 |8,5 |9,5 |12 |
|Evelyne |9 |9,5 |12,5 |12 |18 |
Données centrées réduites :
En général, les variables retenues pour décrire les individus sont
exprimées avec des unités différentes, et ne sont pas directement
comparables entre elles. Dans la plupart des cas, on procède donc à un
centrage-réduction des variables de départ.
Autrement dit, on remplace chaque variable Xi par la variable centrée
réduite associée :
[pic]
Cette nouvelle variable Zi est sans unité. Elle a pour moyenne 0 et pour
écart type 1. |Sujet |Math |Sciences |Français |Latin |Musique |
|Jean |-1,0865 |-1,2817 |-1,5037 |-1,6252 |-1,0190 |
|Aline |-0,4939 |-0,6130 |-0,6399 |-0,7223 |-0,6794 |
|Annie |-1,0865 |-0,9474 |0,2239 |-0,1806 |0,0000 |
|Monique |1,4322 |1,5604 |1,5197 |1,8058 |-1,0190 |
|Didier |1,2840 |1,3932 |0,5119 |0,7223 |-0,3397 |
|André |0,3951 |0,0557 |-1,3597 |-1,0835 |0,6794 |
|Pierre |-1,2347 |-0,9474 |1,0878 |0,5417 |-0,3397 |
|Brigitte |0,9877 |0,8916 |-0,4959 |-0,1806 |0,3397 |
|Evelyne |-0,1975 |-0,1115 |0,6559 |0,7223 |2,3778 | On définit ainsi p variables [pic].
La somme des valeurs de chaque colonne est nulle (données centrées, moyenne
nulle pour chaque variable). La somme des carrés des valeurs de chaque
colonne est 9 (données réduites, donc d'écart type égal à1). Nuage des individus - Inertie du nuage
On peut représenter un protocole bivarié à l'aide d'un nuage de points dans
un plan. De manière analogue, on peut représenter chacun des individus du
tableau précédent par un point d'un espace géométrique à 5 dimensions
(autant que de variables). Il s'agit alors d'un espace multidimensionnel. Le nuage des individus est l'ensemble des 9 points correspondant aux 9
sujets, pris dans un espace de dimension 5 (le nombre de variables). La variabilité observée entre les 9 sujets est mesurée par l'inertie du
nuage de points (vocabulaire issu de la mécanique) par rapport au point O,
origine des coordonnées, et également point moyen du nuage. L'inertie totale du nuage est : [pic].
Inertie (absolue) de l'individu i : [pic].
Inertie relative de l'individu i : [pic]
L'inertie relative d'un individu est d'autant plus grande que les valeurs
des variables observées sur cet individu sont "loin de la moyenne".
Inertie le long d'un axe, inertie selon un sous-espace
L'inertie (absolue) de l'individu i le long d'un axe D est [pic], où Hi est
la projection orthogonale du point Mi sur l'axe D. L'inertie relative
correspondante est [pic].
On peut définir de même l'inertie selon un plan, un espace de dimension 3,
etc. Nuage des variables De façon duale, on peut considérer les 5 points correspondant aux 5
variables, dans un espace de dimension 9 (le nombre des individus).
L'inertie absolue de chaque variable est n, son inertie relative est [pic]. Corrélations des variables prises deux à deux :
| |Math |Sciences |Français |Latin |Musique |
|Math |1,0000 |0,9825 |0,2267 |0,4905 |0,0112 |
|Sciences |0,9825 |1,0000 |0,3967 |0,6340 |0,0063 |
|Français |0,2267 |0,3967 |1,0000 |0,9561 |0,0380 |
|Latin |0,4905 |0,6340 |0,9561 |1,0000 |0,0886 |
|Musique |0,0112 |0,0063 |0,0380 |0,0886 |1,0000 | Comme les variables sont centrées réduites, la corrélation entre la
variable[pic] et la variable [pic] est simplement [pic].
Dans notre exemple, toutes les variables sont corrélées positivement. La
corrélation est forte entre les 2 premières, et entre la 3è et la 4è. La
cinquième est faiblement corrélée aux autres variables. 2 Analyse en composantes principales (normée) 1 Aperçu sur les bases mathématiques de l'ACP
Ce paragraphe pourra être ignoré en première lecture. Abandonnons provisoirement l'exemple précédent et explorons quelques
situations comportant un très petit nombre de variables et d'observations; Ces exemples pourront aussi être explorés à l'aide du classeur Excel
Valeurs-propres.xls. Considérons un exemple avec 2 variables et 3 individus. Par exemple : | |V1 |V2 |
|i1 |1 |6 |
|i2 |2 |3 |
|i3 |3 |4 | Les variables centrées réduites associées à V1 et V2 sont données par : | |X1 |X2 |
|i1 |-1,225 |1,336 |
|i2 |0 |-1,069 |
|i3 |1,225 |-0,267 | On cherche une variable U :
- combinaison linéaire de X1 et X2
- représentant au mieux la variabilité observée sur les 3 individus,
c'est-à-dire de variance maximale. Pour que le problème posé ait un sens, il faut en outre poser une condition
sur les coefficients de la combinaison linéaire U. Ainsi, nous recherchons
[pic], avec la condition [pic], telle que Var(U) soit maximale. Rappel : [pic]
Comme X1 et X2 sont centrées réduites, on a ici : [pic], où r désigne le
coefficient de corrélation des variables X1 et X2. Sur l'exemple proposé, r
= -0,65. Le dessin ci-dessous représente les points M de coordonnées (t1, t2) tels
que Var(U)=1 (mais ne vérifiant pas nécessairement [pic]). La courbe ainsi
obtenue est l'ellipse d'inertie du nuage de points. L'un des deux points de
cette ellipse les plus proches de l'origine est le point A, et c'est dans
la direction (OA) que l'on trouve la solution au problème posé : il suffit
de prendre le point A' tel que