Gestion du temps - Ensicaen MAE
Dans le cas des variables aléatoires continues, on parle de classe modale. ...
Dans le cas d'une variable aléatoire discrète, après classement des ... Il faut dans
un premier temps calculer les effectifs corrigés par les amplitudes des classes.
..... 5/ A titre d'exercice vous pouvez vérifier que Q1 = 1,95° , que Q3 = 7,375° et
que ...
Part of the document
STATISTIQUES DESCRIPTiVES : LES PARAMETRES
L'objectif de ce cours est de permettre à l'apprenant de dépasser le stade
de l'explication graphique des distributions qu'il pourra observer et de
présenter un certain nombres de valeurs calculées que l'on nomme paramètres
et qui résument cette distribution observée. Ces paramètres qui sont
calculés n'intéressent donc que les variables aléatoires quantitatives. Il
existe des paramètres de tendance centrale, de forme et de dispersion. Ce
cours ne s'intéresse pas aux paramètres de forme. Lorsque l'on étudie une distribution statistique, il est rapidement
nécessaire de simplifier le grand nombre des observations par un plus petit
nombre de caractéristiques qui résument cette distribution. Chacune de ces
caractéristiques doit remplir quatre conditions. Elle doit être objective,
elle doit tenir compte de toutes les observations (il peut être utile
d'éliminer certaines observations jugées aberrantes par l'analyse
graphique), elle doit avoir une signification concrète, aisée à comprendre,
elle doit être simple à calculer. Certaines caractéristiques ont en plus la
propriété d'être peu sensible aux fluctuations d'échantillonnage (c'est à
dire que deux expérimentateurs effectuant le même travail sur la même
population obtiendront les même résultats), et de pouvoir se prêter aux
calculs algébriques ultérieurs (c'est à dire de pouvoir servir à un autre
calcul algébrique).
Les principaux paramètres de tendance centrale sont le mode, la médiane et
la moyenne.
Les principaux paramètres de dispersion sont l'étendue, les écarts
interquartile et inter-décile, 'écart-type et la variance et enfin
l'intervalle de confiance.
1. CARACTERES DE POSITION Un caractère de position donne une idée de la situation centrale d'une
distribution. Il peut aussi servir à comparer deux échantillons d'une même
population ou issus de populations différentes en première approche..
Par exemple considérons une variable représentée sur un axe (salaires) : µ1 et µ2 sont deux valeurs qui permettent de dire que l'individu 2 est
mieux payé que l'individu 1. Mais ils peuvent être aussi deux caractères de
tendance centrale (paramètres) permettant de dire que les individus de
l'échantillon 2 sont mieux payés que ceux de l'échantillon 1. Ils résument
les échantillons 1 et 2. 1. Le mode Le mode ou dominante est la valeur du caractère ayant l'effectif le plus
important. Il peut y avoir plusieurs modes.
C'est un paramètre que l'on peut lire directement dans le tableau des
effectifs de la série statistique dans le cas de variables aléatoires
discrètes.
Dans le cas des variables aléatoires continues, on parle de classe modale.
C'est la classe d'effectif corrigé maximal. Il est en effet nécessaire
d'avoir des classes de même largeur.
2. La médiane Dans le cas d'une variable aléatoire discrète, après classement des
données (de 1 à N dans l'ordre croissant), la médiane est la valeur qui
sépare la distribution en deux parties d'effectifs identiques. La médiane
a donc un sens concret. Si N est impair, alors [pic] (la valeur de rang k)
telle que [pic].
A partir du tableau des effectifs cumulés croissants, nous pouvons lire
directement la médiane.
A partir du tableau des fréquences cumulées la médiane correspond à la
valeur de la variable aléatoire X telle que F(X=x)=O,5. On la calcule
souvent par interpolation linéaire dans la classe médiane de façon à
obtenir [pic].
De façon analytique, on calcule précisément : [pic], avec i représentant
la classe médiane, [pic]la borne inférieure de la classe médiane,
[pic]l'amplitude de la classe médiane, [pic]la fréquence cumulée de la
classe précédent la classe médiane et [pic]la fréquence cumulée de la
classe médiane.
La qualité statistique essentielle de la médiane est qu'elle est peu
sensible aux aleas d'échantillonnage, en particulier aux erreurs
d'échantillonnage. En effet comme il s'agit d'un paramètre de rang, une
valeur aberrante ne la modifiera pas. On dit que c'est un paramètre
robuste.
Son inconvénient principal est d'être peu exploitable pour des calculs
ultérieurs. Si l'expérimentateur a oublié un certain nombre de valeurs, il
est nécessaire de tout recalculer.
3. Les quartiles On définit les quartiles comme des caractéristiques intermédiaires à
partir de ce classement :
- le premier quartile [pic]est la valeur de la variable située au quart de
l'effectif.
- le deuxième quartile est la médiane.
- le troisième quartile [pic]est la valeur de la variable située aux trois
quarts de l'effectif.
On calcule les quartiles de la même façon que la médiane, par
interpolation linéaire à l'intérieur de la classe qui les contient.
Exemple : Nous allons analyser le nombre d'appels que reçoit un central
téléphonique. Nous disposons d'un tableau de données contenant le nombre
d'appel par heures. |Classe (nombre d'appels|Nombre d'heures |
|par heure compris entre| |
|... et ...) | |
|[10 ; 20[ |10 |
|[20 ; 30[ |40 |
|[30 ; 50[ |140 |
|[50 ; 90[ |220 |
|[90 ; 100[ |10 |
|Total |420 |
Il s'agit d'une variable aléatoire continue. 1/ Détermination du mode. Il faut dans un premier temps calculer les
effectifs corrigés par les amplitudes des classes. |[pic] |[pic] |Nombre de classes |[pic] |[pic] |[pic] |
| | |unités | | | |
|[10 ; 20[|10 |1 |10 |0,02 |0,02 |
|[20 ; 30[|40 |1 |40 |0,10 |0,12 |
|[30 ; 50[|140 |2 |70 |0,33 |0,45 |
|[50 ; 90[|220 |4 |55 |0,52 |0,98 |
|[90 ; |10 |1 |10 |0,02 |1,00 |
|100[ | | | | | |
|Total |420 | | |1 | |
La classe dont l'effectif corrigé est maximal est la classe [30 ; 50[, elle
correspond à deux classes « unités ». Il y a donc deux classes modales
[pic][30 ; 40[ et [pic][40 ; 50[ appels par heure. En effet chacune de ces
classes a un effectif corrigé de 70 éléments. Dans cette exemple il fallait se méfier de ne pas répondre, de façon
prématurée, la classe [50 ; 90[ qui a l'effectif non corrigé le plus grand
mais qui correspond à quatre classes unités. On nomme [pic]l'effectif
corrigé (par l'amplitude des classes) et on le reporte dans le tableau de
données. En résumé : Le calcul de l'effectif corrigé sert à dessiner l'histogramme représentant
la variable aléatoire et à déterminer son mode. 2/ Détermination de la médiane. Il faut calculer les fréquences ou les
effectifs cumulés. Nous avons choisi de calculer la médiane à partir des
fréquences cumulées, la médiane étant la valeur de la variable aléatoire
pour[pic]. Nous conseillons de construire systématiquement le graphique correspondant
à la fonction de répartition au niveau de la médiane (on fait l'hypothèse
d'une distribution uniforme et continue à l'intérieur de l'intervalle qui
contient la médiane) : [pic]Le calcul de la médiane se fait par interpolation linéaire à
l'intérieur de la classe médiane par application de la formule suivante :
[pic] dans laquelle [pic]la borne inférieure de la classe médiane est égale
à 50, [pic]l'amplitude de la classe médiane est égale à 40 (dans le tableau
nous avons présenté les classes unités c'est-à-dire 40/10=4), [pic]la
fréquence cumulée de la classe précédent la classe médiane est égale à 0,45
et [pic]la fréquence cumulée de la classe médiane est égale à 0,98. Ce qui
donne comme résultat 53,77 appels par heure La médiane peut aussi être obtenue par application de la règle de
proportionnalité suivante: [pic] appels par heure. 4. Les déciles et les centiles De la même façon que les quartiles divisent la distribution en quatre
parties d'effectifs égaux, les déciles divisent la distribution en 10
parties d'effectifs égaux et les centiles en cent parties d'effectifs
égaux.
On les calcule par interpolation linéaire dans la classe qui les contient,
comme pour la médiane.
5. La moyenne arithmétique C'est un caractère de position essentiel car elle permet des calculs
ultérieurs. En particulier, elle sert au calcul de la variance. Par contre
c'est un paramètre très sensible aux variations d'échantillonnage.
Selon que l'on dispose des effectifs ou des fréquences, la formule
analytique est la suivante : [pic]. C'est-à-dire que c'est le barycentre
de la distribution.
Démonstration : [pic] car [pic] la fréquence observée de la classe de rang i.
Dans le cas d'une variable aléatoire continue, si on ne dispose que d'une
représentation par classe de la distribution, il faut attribuer au centre
de chaque classe, [pic], la totalité de l'effectif de la classe puisqu'on
ne connaît pas la répartition exacte de l'effectif à l'intérieur de la
classe.
Analyse du nombre d'appels que reçoit un central téléphonique (suite). 3/ Pour calculer la moyenne arithmétique il faut d'abord calculer le centre
des classes, puis utiliser la formule : [pic] ou ci le centre de la classe
de rang i remplace xi. |[pic] |[pic] |Nombre |[pic] |[pic] |[pic] |[pic] |[pic] |
| | |de | | | | | |
| | |classes | | | | | |
| | |unités | | | | | |
|[10 ; 20[|10 |1 |10 |15 |150 |0,02 |0,02 |
|[20