Analyse multidimensionnelle de données - UBO
L'option : Proposer d'enregistrer les projets lors de la fermeture peut également
être déroutante si on ignore ce qu'est un fichier de projet Statistica (cf. § 1.3.3) .....
Nous ferons ici une analyse basée sur les corrélations, en utilisant les variances
et covariances corrigées (SC/(N-1)), de manière à retrouver les résultats publiés.
Part of the document
Analyse multidimensionnelle des données
Master 2ème année - Psychologie Sociale des Représentations
Réf. (polycopié et fichiers de données utilisés) :
http://geai.univ-brest.fr/~carpenti/
Présentation
1 Introduction
Comment peut-on définir l'analyse multidimensionnelle des données ? L'analyse statistique élémentaire s'applique à des situations dans
lesquelles une ou deux variables ont été observées sur un ensemble
d'individus statistiques (populations ou échantillons). L'extension de ces
méthodes aux cas où le nombre de variables devient plus élevé est souvent
appelé analyse multivariée. Cependant les conclusions ou résultats obtenus
par ces méthodes restent de même nature, unidimensionnelle. Par exemple, la
MANOVA (analyse de variance multivariée) permet d'étudier l'effet de
facteurs de variation sur un "vecteur" de variables dépendantes, mais
apporte une conclusion analogue à celle de l'ANOVA : les facteurs ont (ou
n'ont pas) un effet sur le vecteur des VD. L'analyse multidimensionnelle (ou plutôt, les méthodes qui en relèvent)
étudie également des situations où un ensemble de variables doit être
étudié simultanément sur un ensemble d'objets statistiques. Par nature, ces
données se modélisent dans un espace à plusieurs dimensions. Mais, à la
différence des méthodes précédentes, l'analyse multidimensionnelle des
données s'attache à fournir des résultats en réduisant le nombre de
dimensions, mais en ne se limitant pas à une seule. La plupart des méthodes
d'analyse multidimensionnelle utilisent un modèle géométrique (une
géométrie dans un espace de dimension supérieure à 3) et ses possibilités
de projection sur des sous-espaces de dimension plus réduite, notamment sur
des plans bien choisis. Les "écarts" entre objets y sont alors traduits par
les distances habituelles. G. Drouet d'Aubigny schématise ce traitement d'un tableau de données
complexes, ou système relationnel empirique de la façon suivante : [pic] Le plus souvent, les méthodes d'analyse multidimensionnelle s'appliquent à
des tableaux de l'un des types suivants : - Tableau protocole individus x variables numériques. Exemple : On dispose des consommations annuelles de 8 types de denrées alimentaires
pour 8 catégories socio-professionnelles (en 1972). | |PAO |
- Tableau de contingence. Exemple : Répartition des étudiants selon la catégorie socio-professionnelle des
parents et le type d'études suivi en 1975-1976 (simplifié) : | |Droit |Sciences |Médecine |IUT |
|Exp. agri. |80 |99 |65 |58 |
|Patron |168 |137 |208 |62 |
|Cadre sup. |470 |400 |876 |79 |
|Employé |145 |133 |135 |54 |
|Ouvrier |166 |193 |127 |129 | - Tableau protocole pour des variables nominales | |Sexe |Revenu |Preference |
|s1 |F |M |A |
|s2 |F |M |A |
|s3 |F |E |B |
|s4 |F |E |C |
|s5 |F |E |C |
|s6 |H |E |C |
|s7 |H |E |B |
|s8 |H |M |B |
|s9 |H |M |B |
|s10 |H |M |A | - Tableau individus x variables comportant des variables numériques et une
variable dichotomique | |Age |Etat-Civ|Feminist|Frequence|Agressivi|Harceleme|
| | |il |e | |te |nt |
|1 |13 |1 |102 |2 |4 |0 |
|2 |45 |2 |101 |3 |6 |0 |
|3 |19 |2 |102 |2 |7 |1 |
|4 |42 |2 |102 |1 |2 |1 |
|5 |27 |1 |77 |1 |1 |0 |
|6 |19 |1 |98 |0 |6 |1 |
|7 |37 |1 |96 |1 |6 |0 | On cherche à analyser les résultats contenus dans ces tableaux, en
explicitant plusieurs dimensions, si possible indépendantes l'une de
l'autre.
2 Quelques méthodes utilisées De nombreuses méthodes ont été proposées. Ces méthodes peuvent être
regroupées d'une part selon les outils mathématiques utilisés (méthodes
linéaires ou non linéaires), d'autre part selon la nature du résultat
recherché (méthodes descriptives ou prédictives). Méthodes descriptives : toutes les variables jouent des rôles analogues.
Méthodes prédictives : on cherche à "expliquer" ou "prévoir" une ou
plusieurs variables (variables dépendantes ou VD) à l'aide des autres
variables (variables indépendantes ou VI).
[pic] 3 Concepts fondamentaux
Selon [Doise], toute distribution de réponses sur plusieurs variables peut
être statistiquement décomposée en trois éléments : le niveau (la moyenne
des réponses des individus), la dispersion (le degré d'éparpillement des
réponses individuelles autour de la moyenne), et la corrélation (le lien
entre les réponses individuelles pour deux variables). Ces composantes sont
autant de points de vue sur les données.
Un tableau de données carré ou rectangulaire est appelé matrice. L'élément
générique du tableau est désigné par une notation à double indice, par
exemple [pic]. En général, le premier indice désigne le numéro de ligne, et
le second indice le numéro de colonne. Un tableau comportant n lignes et p
colonnes est dit de dimension (n, p). Lorsque l'on traite un tableau Individus x Variables de dimension (n, p),
les individus peuvent être représentés comme des points d'un espace à p
dimensions, les variables comme des points d'un espace à n dimensions.
L'ensemble des points représentant les individus est appelé nuage des
individus. La distance entre deux individus Mi, Mj est calculée par :
[pic]
L'inertie du nuage de points par rapport à un point donné O de l'espace est
la somme des carrés des distances des points Mi à O.
[pic]
L'inertie du nuage de points par rapport au point moyen du nuage est encore
appelée somme des carrés ou variation totale. Le "lien" entre deux variables Xk et Xl peut être mesuré par leur
coefficient de corrélation r(Xk,Xl). Lorsque les variables sont centrées et
réduites, ce coefficient de corrélation est, à une division par n près, le
produit scalaire des vecteurs représentant ces variables. C'est aussi le
cosinus de l'angle entre ces deux vecteurs. Pour des variables centrées
réduites :
[pic]
Méthodes exploratoires, descriptives
1 Analyse en composantes principales ou ACP
1 Introduction On a observé p variables sur n individus. On dit qu'il s'agit d'un
protocole multivarié. Les données à traiter forment une matrice :
[pic]
On cherche à remplacer ces p variables par q nouvelles variables
(composantes principales ou facteurs) résumant au mieux le protocole, avec
q ? p et si possible q=2.
L'une des solutions à ce problème est l'ACP, méthode qui a l'avantage de
résumer un ensemble de variables corrélées en un nombre réduit de facteurs
non corrélés. Les principaux résultats d'une ACP sont donnés par : - Les coordonnées des individus sur les composantes principales ou scores
des individus ;
- Les coordonnées des variables sur les composantes principales, ou
saturations des variables ; dans le cas d'une ACP normée, les saturations
sont aussi les coefficients de corrélation entre les variables initiales et
les composantes principales ;
- Les valeurs propres associées à chacune des composantes principales, qui
représentent l'inertie du nuage prise en compte par la composante.
[pic] Principe de la méthode : - Pour éliminer les effets dus aux choix d'unités des différentes
variables, on fait un centrage-réduction des différentes variables. - Les distances entre les individus sont mesurées par la distance
euclidienne dans un espace de dimension p. Par exemple, pour les points
représentant les individus 1 et 2 :
[pic] - On recherche alors la direction dans laquelle le nuage de points est le
plus dispersé : cette direction est le premier axe principal, et l'inertie
(dispersion) le long de cet axe est la valeur propre associée à cet axe. - On projette alors les points dans le sous-espace orthogonal au premier
axe principal, et on cherche de nouveau la direction de plus grande
dispersion du nuage projeté. On obtient ainsi le deuxième axe principal, et
la seconde valeur propre. - On poursuit la méthode, jusqu'à ce que l'essentiel de l'inertie du nuage
de points ait été prise en compte. 2 Exemple On reprend l'exemple donné en introduction : consommations annuelles de 8
types de denrées alimentaires pour 8 catégories socio-professionnelles (en
1972). | |PAO | Données après centrage et réduction : | |PAO |PAA |VIO |VIA |
|1 |6,2079 |77,60 |6,21 |77,60 |
|2 |0,8797 |11,00 |7,09 |88,60 |
|3 |0,4160 |5,20 |7,50 |93,79 |
|4 |0,3065 |3,83 |7,81 |97,63 |
|5 |0,1684 |2,11 |7,98 |99,73 |
|6 |0,0181 |0,23 |8,00 |99,96 |
|7 |0,0034 |0,04 |8,00 |100,00 | Représentation graphique des indiv