Correction pale ANALYSE DE DONNES ...
EXERCICE 1 (4/5 points). Expliquez le principe général de l'analyse factorielle -
1 point ... EXERCICE 2 (3/5 points). Une analyse des Correspondances Multiples
(ACM) a été réalisée sur ... Quelle mesure de distance va-t-on utiliser dans cette
analyse ? ? 1 point. On choisit une ACM car les variables (les questions) sont ...
Part of the document
EXERCICE 1 (4/5 points) 1. Expliquez le principe général de l'analyse factorielle - 1 point L'analyse factorielle est un ensemble de méthodes statistiques permettant
de déceller les dimensions sous-jacentes, appelées facteurs d'un tableau
multidimensionnel. Au départ, on a un tableau de données multidimensionnel. On veut montrer
tous les détails sur une surface plane ainsi que les structures qui ne sont
pas visibles sur le tableau de départ. On veut notamment mettre en évidence les ressemblances qui existent entre
les individus et les liaisons entre les variables. Pour faire tout cela il faut déterminer le meilleur plan de projection (
plan factoriel ) et les meilleurs points de projection dans ce plan. Le
meilleur plan de projection doit avoir :
- 2 axes factoriels
- la plus grande dispersion possible des individus = dispersion
maximale Au travers de l'analyse factorielle on veut remplacer des variables
d'origine par de nouvelles variables. Le type d'analyse factorielle va dépendre de la nature des variables :
- variables quantitatives : on réalise une Analyse en Composantes
Principales ou ACP
- variables qualitatives : on réalise une Analyse des Correspondances
multiples ou ACM
2. Vous trouverez ci-après 3 plans principaux que l'on pourrait
rencontrer en ACP. Décrivez uniquement les situations 2 et 3 et dites
quel(s) traitement(s) statistique(s) il serait judicieux de réaliser
lorsque les points-individus sont ainsi représentés - 2 points
[pic] Situation 1 Situation 2
Situation 3 Situation 1 : c'est la situation idéale pour réaliser une ACP. Situation 2 : on voit qu'il y a 3 points isolés du nuage de points. Ceux-ci
risquent d'avoir une part d'inertie élevée car ils sont extrêmes et ils
risquent d'influencer la direction d'allongement maximal. Du nuage de
points. Il faut donc mettre ces 3 individus isolés comme individus
illustratifs. Situation 3 : il y a 2 groupes d'individus représentés par 2 nuages de
points. Il faudrait réaliser une ACP pour chaque nuage même si cela
modifierait les directions d'allongement maximal. 3. Quand parle-t-on d'effet « taille » ? Quelle est l'incidence de
l'effet « taille » sur la caractérisation des individus ? - 1 point Effet de taille : toutes les variables sont corrélées positivement avec la
première composante principale. EXERCICE 2 (3/5 points) 1. Une analyse des Correspondances Multiples (ACM) a été réalisée sur des
données de l'enquête « Conditions de vie et aspirations des Français »
(105 individus et 9 questions). Pour la réalisation de l'analyse, 4
questions ont été utilisées comme questions actives tandis que toutes
les autres ont été utilisées comme questions illustratives : Questions actives
. La famille est le seul endroit où l'on se sent bien ? (oui
/ non) . Les dépenses de logement sont pour vous une charge ?
(négligeable / sans gros problème / une lourde charge / une
très lourde charge) . Avez-vous souffert récemment de mal de dos ? (oui / non) . Vous imposez-vous régulièrement des restrictions ? (oui /
non) Questions illustratives
. Sexe de l'enquêté(e) (masculin / féminin) . Disposez-vous d'un magnétoscope (oui / non) . Avez-vous souffert récemment de maux de tête ? (oui / non) . Regardez-vous la TV ? (tous les jours / assez souvent / pas
très souvent / jamais) Variable continue illustrative
. Age de l'enquêté(e)
a. Quel(s) objectif(s) peut-on assigner à l'étude des données de
l'enquête ? - 0 point b. Justifiez le choix de l'ACM pour décrire la structure des données
de l'enquête. Quelle mesure de distance va-t-on utiliser dans cette
analyse ? - 1 point On choisit une ACM car les variables (les questions) sont qualitatives.
Elles ont plusieurs modalités.
Ex : q1 : La famille est le seul endroit où l'on se sent bien ? Il y a 2
modalités de réponse (oui / non). Dans cette analyse on va utiliser comme mesure de distance (et donc comme
mesure de ressemblance) la distance du Chi². c. On aurait pu utiliser, dans cette analyse, la variable « âge de
l'enquêté(e) » comme variable active. Comment aurait-on fait ? - 1
point Pour cela, il aurait fallu transformer la variable quantitative « âge de
l'enquêté(e) » en variable qualitative. Pour ce faire, il faut réaliser un
découpage en classes qui peut se faire de 2 façons :
- utilisation des seuils naturels de la vie de tous les jours
- utilisation d'une méthode de description statistique On peut alors réaliser un histogramme, certaines classes ont un effectif
très faible, il faut donc les regrouper. En ACM, on ne veut pas forcément
que les classes aient la même amplitude, mais on veut qu'elles aient
environ le même effectif pour leur accorder la même importance.
2. L'Analyse Factorielle des Correspondances simples (AFC) est une
Analyse des Correspondances Multiples (ACM) particulière. Quel est son
objectif ? - 0 point
3. Qu'est-ce que l'effet GUTTMAN ? - 1 point L'effet GUTTMAN correspond au fait que le nuage de point est une forme de
parabole. Le facteur 1 oppose les valeurs extrêmes. Le facteur 2 oppose les valeurs extrêmes aux individus intermédiaires. [pic] EXERCICE 3 (5/5 points) 1. Le logiciel SPAD effectue la classification ascendante hiérarchique
selon la méthode d'agrégation de WARD. Rappelez en quoi consiste cette
méthode. - 1 point La méthode d'agrégation de WARD correspond au fait d'utiliser le critère de
WARD pour agréger des éléments. Le critère de WARD ou critère de perte d'inertie interclasse minimale :
« Au lieu d'agréger les éléments i et i' les plus proches, on agrège les
éléments correspondants à la perte d'inertie interclasse minimale ». En
d'autres termes, au lieu d'agréger les éléments i et i' les plus proches,
on agrège les éléments de telle sorte que la perte d'inertie interclasse de
l'agrégation soit minimale. On utilise cette méthode d'agrégation de WARD en classification ascendante
hiérarchique afin d'obtenir des partitions. On choisit ensuite la meilleure
partition puis on caractérise les classes.
2. La classification autour des centres mobiles est une technique non
hiérarchique. Décrivez succinctement son algorithme. - 2 points La classification autour des centres mobiles est une autre méthode de
classification qui a pour but de créer des groupes d'individus homogènes
dans la population. Au départ on fixe le nombre de classes=k. On choisit alors au hasard k
individus qui vont correspondre à k centres de classes provisoires, on
agrège alors les individus au centre de classe le plus proche. On a alors k
classes. On calcule ensuite le centre de gravité de chaque classe, il devient alors
le nouveau centre de classe. On agrège à nouveau les individus au centre de
classe le plus proche. On calcule à nouveau le centre de gravité qui
devient le nouveau centre de classe. On agrège les individus au centre de
classe le plus proche. On continue cette méthode jusqu'à que la répartition en classes soit
stable, c'est-à-dire jusqu'à ce que les individus appartiennent toujours à
la même classe. 3. Quel est l'objectif d'une Analyse Factorielle Discriminante (AFD) ? -
1 point Une AFD est une technique de description statistique dont le tableau est
composé de n individus décrits par p variables quantitatives et une
variable qualitative à q modalités. L'AFD a pour objectif de séparer au mieux les q classes grâce aux p
variables quantitatives. Elle permet aussi de rechercher les variables
synthétiques qui vont permettre de séparer au mieux les q classes. 4. L'Analyse Factorielle Discriminante (AFD) est une Analyse en
Composantes Principales (ACP) particulière. Expliquez. - 1 point L'AFD est une technique de description statistique. Elle croise n individus
avec p variables quantitatives et une variable qualitative à q modalités. L'AFD est une ACP particulière qui croise q centres de gravité avec p
variables quantitatives. Elle a pour but de passer de p variables d'origine
à p variables latentes comme l'ACP. Les nouvelles variables recherchées, c'est-à-dire les variables
synthétiques sont appelées variables discriminantes et correspondent aux
composantes principales en ACP.