Cours d'initiation aux Statistiques

TESTS D'HYPOTHÈSE SUR LA DIFFÉRENCE ENTRE 2 MOYENNES.
INTERVALLES DE ... Applications du ?2. STATISTIQUES NON-
PARAMÉTRIQUES.

Part of the document


Cours d'initiation aux Statistiques


(les termes anglais sont entre parenthèses et en italiques)



STATISTIQUES DESCRIPTIVES 2
Distribution normale 3
PROBABILITÉS 4
Distribution binômiale 4
STATISTIQUES INFÉRENTIELLES 6
TEST D'HYPOTHÈSE SUR UNE MOYENNE 7
Distribution de t 8
TESTS D'HYPOTHÈSE SUR LA DIFFÉRENCE ENTRE 2 MOYENNES 9
INTERVALLES DE CONFIANCE 11
PUISSANCE DE TEST 12
ANOVA À UN FACTEUR (one-way) 13
Comparaisons post-hoc 14
ANOVA À DEUX FACTEURS (two-way) 16
CORRÉLATION 18
Régression et prédiction 19
Interprétation de r 20
Coefficient de détermination 20
Inférences sur la significativité du r 21
CHI-2 (?2 ; chi-square) 22
Applications du ?2 22
STATISTIQUES NON-PARAMÉTRIQUES 24
Coefficient de corrélation de Spearman (rs) 25
L'étymologie ne nous apprend pas grand'chose : « status »... Utilisées dans
le passé pour la collecte des impôts par les états, les Stats prennent une
importance majeure dans la recherche moderne. Ex : en 1987, la FDA donne le
feu vert pour la mise sur le marché de l'AZT en un temps record de 21 mois
de recherche clinique (au lieu des ~9 ans habituels) étant donné la
situation dramatique des victimes du SIDA. L'AZT avait des effets
secondaires mais la preuve statistique d'une réduction du nombre de morts
justifiait son utilisation.

On peut distinguer 2 sortes de Stats :
1) Stats descriptives : il s'agit d'organiser et résumer des
observations. On ne fait pas de comparaisons et on s'intéresse en
général à un seul groupe, échantillon ou population.
2) Stats inférentielles (ou inductives) : on peut ici viser 2 buts :
a) Déduire les propriétés d'une population à partir de l'étude d'un
échantillon. C'est par ex le principe des sondages. Il est
important que l'échantillonnage soit fait au hasard (random). On
met ici le doigt sur la notion de variabilité, principe inhérent
à tout phénomène biologique.
b) Comparer 2 ou plusieurs populations ou échantillons ; si une
différence existe, on se demandera si cette différence est due à
la variabilité (hasard), ou à un facteur différenciant les
groupes étudiés.
Un troisième type de Stats à la charnière entre S descriptives et
inférentielles a trait aux notions de corrélation et prédiction (voir
chapitre concerné).

Dans toute démarche utilisant les Stats, il convient d'abord de poser une
question « de recherche » (ex. AZT freine-t'elle la léthalité du SIDA ?),
laquelle est différente de la question statistique où ce qui est traité, ce
sont des données numériques. Les Stats font partie du plan (design)
expérimental généré par la question de recherche. Ce plan fait en général
intervenir 4 types de paramètres :
1) La variable indépendante : il s'agit du X, ex. le stimulus dans une
étude stimulus-réponse ; exx. influence du stress dans un test de
labyrinthe.
2) La variable dépendante : c'est Y, ce que l'on mesure, la réponse, le
nombre de bons (ou mauvais) choix dans le labyrinthe.
3) Le ou les facteurs sujets d'étude : ex. effet d'un tranquillisant sur
les relations entre stress et performance dans le labyrinthe.
4) Variables parasites : ex. coton autour du muscle en TP de LSV2 ;
influence du cycle jour/nuit sur un dosage hormonal. Il faut faire en
sorte que les variables parasites soient les mêmes pour tous les
groupes.
Après un test, on tire une conclusion statistique d'ordre quantitatif (ex.
il y a 5% de chances que tel résultat soit dû au hasard). Il ne s'agit pas
d'une estimation qualitative : on ne peut pas dire par ex. que les groupes
A et B sont différents. Après exécution du plan expérimental, lequel
comprend plusieurs tests (parfois un grand nombre), on peut espérer
atteindre à une conclusion « de recherche » d'ordre qualitatif.
Les Stats mentent-elles ? En dehors de la manipulation délibérée, la
possibilité existe de faire des erreurs de « design », par ex en ne
contrôlant pas certaines variables parasites ou en effectuant
inconsciemment un échantillonnage non-aléatoire. D'autre part, la quasi-
totalité des résultats publiés dans les journaux scientifiques sont des
résultats « positifs » obtenus en général avec un seuil de significativité
(significance) de 0,05. Cela signifie que si 20 équipes travaillent sur le
même sujet de recherche, dont 19 ne trouvent pas de résultat positif, il
existe 1/20 chances qu'un résultat « faux » soit publié... ! (ex des
plannaires et des engrammes). Les erreurs d'échantillonnage sont les plus
communes, particulièrement en rapport avec la taille. Une trop petite ou
trop grande taille d'échantillon peut amener à des conclusions statistiques
qui faussent la conclusion de recherche.


STATISTIQUES DESCRIPTIVES


Pour avoir un coup d'?il d'ensemble sur un grand nombre de données, on peut
les représenter en distributions de fréquences, dont une forme commune est
l'histogramme de fréquence. Dans ce dernier, le rapport de l'aire de chaque
barre sur l'aire totale de l'histogramme donne la fréquence de l'intervalle
par rapport au nombre total de cas dans la distribution. Un intervalle
adéquat peut se calculer à partir de la formule de Sturge : 1+(3,3 log10
n) ; ou de Yule : 2,5 [pic]. Différents types de fréquences peuvent
s'exprimer :
1) Absolue
2) Relative : permet de comparer des groupes d'effectifs différents.
Attention aux non-sens sur des n faibles (ex. le fait qu'un des 2
mécaniciens d'Aspremont soit alcoolique ne veut pas dire que 50% des
mécaniciens d'Aspremont sont alcooliques)...
3) Cumulative absolue
4) Cumulative relative : permet de repérer les centiles (percentiles)
d'une distribution. La courbe a une allure sigmoïde dont
l'accélération centrale est due à la concentration des effectifs
autour de la moyenne.

Trois paramètres suffisent à caractériser les distributions de fréquences :
1) Forme : Poisson (J inversé) ; asymétrique positive ou négative
(skewed) ; rectangulaire ; bi- ou multimodale ; en cloche.
2) Tendance centrale
a) Mode (NB : le mode ? la mode) : toujours utilisé avec les
échelles nominales.
b) Médiane : sépare l'effectif en 2 moitiés. Formule compliquée
mais facile à repérer sur une distribution de fréquences
cumulatives.

c) Moyenne arithmétique : µ = [pic] pour la population ; [pic]=
[pic] pour l'échantillon. NB : i) [pic]) = 0. ii) La moyenne est
sensible aux extrêmes de la distribution. iii) Est utilisée pour
les tests statistiques si la distribution est normale car c'est
le paramètre qui varie le moins d'un échantillon à l'autre. Dans
une distribution asymétrique, la médiane est la meilleure
représentation de la tendance centrale. iv) Dans une
distribution symétrique, le mode, la médiane et la moyenne ont
la même valeur.
d) Moyenne géométrique de n valeurs : nème racine de leur produit
MG = [pic] ; Log MG = [pic](logX1 + logX2 +...+ logXn)
3) Dispersion (variabilité)
Paramètre important pour les Stats inférentielles. Quantifiée par :
a) Etendue ou étalement (range) : max-min
b) Variance : comme [pic]) = 0, on prend le carré des déviations :
?2 = [pic] (pop) ; S2 = [pic] (éch ; NB : avec n-1 au
dénominateur, on a un estimateur non-biaisé de la variance de la
population, s2 > voir + loin). [pic], la somme des carrés (SC)
des déviations de X par rapport à la moyenne, est fréquemment
utilisée en statistiques. Son calcul, potentiellement
fastidieux, peut être simplifié par la formule suivante : SC =
?X2 - [pic]. Ex :
| |X - µ|(X - µ)2 |
|1 |-3 |9 |
|5 |+1 |1 |
|7 |+3 |9 |
|3 |-1 |1 |
|16/4 = |? = 0|? = 20 ; ?2 |
|4 | |= 5 |


c) Ecart-type (standard deviation) : ?X = [pic] ; SX = [pic]
d) Ecart réduit (z score) : z = [pic] ; NB : µZ = 0 et ?z = 1.


Distribution normale



Propriétés : 95% des données sont comprises entre ± 1,96 et 99% entre ±
2,58 écarts-type. Ex : avec une moyenne et un écart-type de 100 ± 15, on
sait que 95% des données sont comprises entre 70 et 130.
On peut consulter une Table d'aire sous la courbe pour d'autres valeurs.
La courbe normale peut se décrire par un formalisme mathématique (sans
grand intérêt ici) :
Y = [pic][pic]

PROBABILITÉS


Nombre de possibilités correspondant au critère X
f
Définition : Proba(X) = ------------------- = -
Nombre total de possibilités N
(à condition que toutes les possibilités aient des chances égales)
Ex : pile ou face = ½ = 0,5. Exx : proba de sortir un pique = [pic] = 0,25.
NB : 0