I. Les mesures de tendances centrale et de dispersion
II. Exercices de mise en application ... Écart-type mesure la dispersion des
observations autour de la moyenne. .... Cependant le calcul de ces statistiques
fait problème dans la mesure où le dollar de 1986 n'est pas .... Recodez la
variable en une nouvelle variable notecorr 'Moyenne générale corrigée' bien
choisie.
Part of the document
LABORATOIRE 4
Mesures de tendances centrales et de dispersion Objectifs de la séance : I. Les mesures de tendances centrale et de dispersion II. Exercices de mise en application
I. Les mesures de tendances centrale et de dispersion
Les mesures de tendance centrale et de dispersion sont tout
particulièrement pertinentes lorsqu'il s'agit de décrire des variables
quantitatives (intervalle ou ratio) et qualitative ordinale.
i) Procédures pour obtenir les mesures de tendances centrales et de
dispersion 1. Cliquez sur Analyse
2. Cliquez sur Statistiques descriptives
3. Cliquez sur Effectifs (l'écran de dialogue que vous connaissez
maintenant apparaît)
4. Sélectionnez la variable voulue: toujours la version brute débarrassée
des valeurs manquantes car il s'agit de la seule valide pour calculer des
statistiques
5. Cliquer dans le carré Afficher les tableaux d'effectifs afin d'enlever
le X qui s'y trouve (s'il s'y trouve). Par contre, lorsqu'il s'agit de
produire des statistiques sur un tableau de fréquences concernant une
variable de type quantitative continue, on peut indiquer à SPSS les
statistiques souhaitées tout en lui précisant qu'on ne désire pas voir
apparaître le tableau de fréquences correspondant, lequel s'étendrait
probablement sur plusieurs pages. À vous de choisir la bonne option.
6. Cliquer sur l'option Statistiques. L'écran de dialogue suivant apparaît:
[pic] 7. Choisir les mesures de tendances centrales ou de dispersion dont vous
avez besoin en cliquant dans les carrés précédant la statistique en
question. 8. Cliquez sur Poursuivre ... 9. Cliquez sur Coller
Les mesures de tendances centrales : Moyenne: mesure de tendance centrale la plus utilisée. Il s'agit de la
somme des valeurs de toutes les observations, divisée par
le nombre d'observations. Médiane: valeur qui occupe la place du milieu dans le rangement
ascendant ou descendant des valeurs de la variable.
Autrement dit, c'est la valeur de la variable qui divise la
distribution de telle sorte que 50% des valeurs se trouvent
au-dessus d'elle et 50% des valeurs se rencontrent en-
dessous d'elle. Mode: valeur la plus fréquemment rencontrée dans une série de
données. Somme: somme de toutes les valeurs d'une série de données. Les mesures de dispersion : Écart-type mesure la dispersion des observations autour de la moyenne. Un
écart-type qui est grand par rapport à la moyenne
indique la présence de données dispersées autour de
la moyenne donc hétérogènes, alors qu'un écart-type
petit par rapport à la moyenne indique la présence de
données concentrées autour de la moyenne donc
relativement homogènes. Variance : écart-type élevé au carré. S'interprète en termes d'unités
carrées. Étendue: différence entre la plus grande valeur et la plus petite valeur
d'une série d'observations. Minimum / Maximum: plus petite et plus grande valeurs rencontrées dans
la distribution. Écart-moyen: distance moyenne (en valeur absolue) séparant les
observations de la moyenne.
Les mesures qui rendent compte de la forme de la distribution : Aplatissement (kurtosis) indique si la distribution est "pointue"
(recentrée autour de sa moyenne) ou au contraire
étalée. Le coefficient est nul pour une loi normale,
négatif pour une distribution étalée, positif pour
une distribution pointue.
Asymétrie (skewness) indique le degré de symétrie de la distribution : un
chiffre négatif indique la présence d'une
distribution étendue vers la gauche, un chiffre
positif indique la présence d'une distribution
étendue vers la droite zéro indiquant une
distribution symétrique. Les fractiles: Quartiles Le premier quartile est la valeur de la variable qui divise la
distribution de telle sorte que 25% des valeurs se
trouvent en dessous d'elles. Le troisième quartile
est la valeur de la variable qui divise la
distribution de telle sorte que 75% des valeurs se
trouvent en dessous d'elles.
Prenons l'exemple du montant que les étudiants dépensent en restaurant par
mois (variable « resto »). En sélectionnant toutes les statistiques
disponibles dans SPSS (en retirant le tableau d'effectifs), vous aurez la
syntaxe suivante : FREQUENCIES VARIABLES=resto
/FORMAT=NOTABLE
/NTILES=4
/STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN
MEAN MEDIAN MODE SUM SKEWNESS SESKEW
KURTOSIS SEKURT
/ORDER=ANALYSIS. Et le tableau suivant :
|Statistiques |
|Dépense en restaurant par| |
|mois | |
|N |Valide |2143 |
| |Manquante |54 |
|Moyenne |51.79 |
|Erreur std. de la moyenne|1.106 |
|Médiane |40.00 |
|Mode |50 |
|Ecart-type |51.189 |
|Variance |2620.29|
| |9 |
|Asymétrie |2.956 |
|Erreur std. d'asymétrie | |
| |.053 |
|Aplatissement |14.267 |
|Erreur std. | |
|d'aplatissement |.106 |
|Intervalle |500 |
|Minimum |0 |
|Maximum |500 |
|Somme |110987 |
|Centile|25 |20.00 |
|s | | |
| |50 |40.00 |
| |75 |60.00 |
Généralement, on ne présente pas les mesures de tendance centrale et de
dispersion sous forme de tableau, on préfère en discuter dans le texte en
les y intégrant. À la lecture des résultats, nous remarquons que les dépenses mensuelles en
restaurant déclarées par les 2143 étudiants vont de 0 dollars (minimum=0) à
500 dollars (maximum=500).
En moyenne, les étudiants dépensent 51,79 dollars dans les restaurants. La
moitié des répondants déclarent dépenser moins de $40 par mois (médiane
40). 25% des étudiants dépensent moins de 20 dollars par mois (quartile 1)
et 25% dépensent plus de 60 dollars (quartile 3).
L'écart-type est de 51,19 ce qui signifie qu'en moyenne, les écarts de
dépenses par rapport à la moyenne sont de 51,19 dollars.
Le calcul du coefficient de variation (l'écart type divisé par la moyenne)
est de 98,8%, ce qui signifie que les données sont très hétérogènes (bien
au dessus de 15%).
En ce qui a trait à la forme de la distribution, le coefficient d'asymétrie
nous permet de constater qu'il y a une distribution asymétrique vers la
droite (asymétrie=2,96) et la mesure de l'aplatissement nous indique que la
distribution est plutôt pointue (Aplatissement=14,3).
Tous les étudiants pris ensemble ont consacré une somme de 110987 dollars
dans des restaurants. RAPPEL
Attention, ces statistiques se calculent sur les données brutes nettoyées
et en s'assurant d'avoir exclu les valeurs manquantes. On constate donc que pour ces données l'hétérogénéité est très forte. Une
des raisons pour laquelle la dispersion est si grande est que de nombreux
étudiants déclarent des dépenses nulles. Leur situation n'est donc pas
comparable avec celles des étudiants qui déclarent des dépenses. Il est
alors préférable de recalculer les statistiques de dépenses moyenne sur la
variable « reston » : dépenses non nulles en restaurant par mois. Il s'agit
de coder 997 « ne s'applique pas » les dépenses nulles en restaurant par
mois. La syntaxe pour créer la variable « reston » est : RECODE resto (0=997) (ELSE=Copy) INTO reston.
VARIABLE LABELS reston 'dépenses non nulles en restaurant par mois'.
* Il faut définir les valeurs manquantes *.
MISSING VALUES reston (997 998 999).
EXECUTE.
La syntaxe pour obtenir la moyenne et l'écart-type de la variable
« reston » est : FREQUENCIES VARIABLES=reston
/FORMAT=NOTABLE
/STATISTICS=STDDEV MEAN
/ORDER=ANALYSIS.
|Statistiques |
|dépenses non nulles en |
|restaurant par mois |
|N |Valide |1976 |
| |Manquant|221 |
| |e | |
| |Moyenne |56.1675 |
| |Ecart-ty|50.94990 |
| |pe | | Le calcul du coefficient de variation (l'écart type divisé par la moyenne)
est de 90,7%, ce qui signifie que les données sont moins hétérogènes pour
la variable « reston » que pour la variable « resto » même si
l'hétérogénéité est encore forte. Cependant le calcul de ces statistiques fait problème dans la mesure où le
dollar de 1986 n'est pas comparable avec le dollar de 2008.
Ainsi la moyenne des dépenses non nulles des étudiants de 1986 est de 43$
contre 86$ pour les étudiants de 2008 alors même que le recrutement des
étudiants est plus démocratique en 2008 qu'en 1986. Cette différence
reflète avant tout la différence de valeur du dollar entre les deux dates.
Pour rendre comparable les dépenses des étudiants des différentes cohortes,
il faut passer d'une monnaie courante à une monnaie constante.
Une monnaie constante est une monnaie ayant un pouvoir d'achat constant
da