15.5. Test de Kruskal-Wallis
Exercices de révision ... Un sondage est une étude qui porte sur un échantillon
représentatif de la population afin de .... Situation A (distributions statistiques).
Part of the document
Master de Psychologie
PSY73B : Informatique : traitement des données - TD N°3
Tests non paramétriques
Tests non paramétriques sur des groupes indépendants
1 Test de la médiane
Objectif du test : comparer les médianes dans deux ou plusieurs groupes
indépendants, lorsque la variable dépendante est ordinale ou numérique.
Ouvrez le classeur Statistica Enfants-PRN.stw.
On veut comparer l'IDM à 24 mois dans le groupe témoin et dans le groupe
expérimental à l'aide d'un test de la médiane.
Rappel de la méthode : on construit un tableau de contingence en croisant
les variables "Groupe" et "Position par rapport à la médiane" et on réalise
un test du khi-deux sur le tableau de contingence obtenu.
En utilisant, par exemple, le menu Statistiques - Tests non paramétriques -
Statistiques ordinales, vérifiez que la médiane des IDM à 24 mois est égale
à 111,5.
Dans le cours, le test de la médiane a été présenté avec une variable
"Groupe" à deux modalités. Cependant, la méthode peut s'étendre sans
difficultés au cas où la variable "Groupe" comporte plus de deux modalités.
C'est pourquoi Statistica range ce test dans le menu : Statistiques - Tests
non paramétriques - Comparaison de plusieurs échantillons indépendants :
[pic]
Spécifiez la variable dépendante et la variable de classement, puis cliquez
sur le bouton "Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane". On
obtient le résultat suivant :
[pic]
Remarque : Le test de la médiane ne met pas en évidence de différence entre
les deux groupes. En revanche, un test unilatéral de comparaison de
moyennes établit une différence au bénéfice du groupe expérimental. Mais le
test de la médiane est moins puissant, et c'est nécessairement un test
bilatéral.
2 Test bilatéral de Kolmogorov-Smirnov
Objectif du test : comparer les distributions de la variable dépendante
dans deux ou plusieurs groupes indépendants, lorsque la variable dépendante
est ordinale ou numérique.
On reprend la comparaison des deux groupes à l'aide du test de Kolmogorov-
Smirnov.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez
l'item "Comparaison de deux échantillons indépendants". Si nécessaire,
spécifiez de nouveau la variable dépendante et la variable de classement,
puis cliquez sur le bouton "Test de Kolmogorov-S. de deux échant.".
Vous devriez obtenir le résultat suivant :
[pic]
On sait que la mise en oeuvre du test de Kolmogorov-Smirnov repose sur le
choix d'un découpage en classes, puis la détermination des fonctions de
répartition (fréquences cumulées) des deux distributions observées. Il est
légitime de se demander quelles sont les bornes de classes utilisées par
Statistica.
Quelques manipulations sous Excel montrent que Statistica prend en fait
l'ensemble des modalités observées comme bornes de classes, et construit
donc le tableau de fréquences cumulées suivant :
| |Groupe témoin |Groupe expérimental| |
|Classes |Fréquence|% cumulé |Fréquence|% cumulé |Différenc|
| | | | | |e |
|80 |1 |3,23% |0 |,00% |-3,23% |
|81 |1 |6,45% |0 |,00% |-6,45% |
|88 |1 |9,68% |0 |,00% |-9,68% |
|91 |3 |19,35% |0 |,00% |-19,35% |
|96 |1 |22,58% |1 |4,00% |-18,58% |
|98 |0 |22,58% |1 |8,00% |-14,58% |
|100 |1 |25,81% |0 |8,00% |-17,81% |
|102 |3 |35,48% |0 |8,00% |-27,48% |
|104 |4 |48,39% |0 |8,00% |-40,39% |
|106 |1 |51,61% |1 |12,00% |-39,61% |
|106 |0 |51,61% |0 |12,00% |-39,61% |
|109 |2 |58,06% |6 |36,00% |-22,06% |
|111 |1 |61,29% |0 |36,00% |-25,29% |
|112 |0 |61,29% |3 |48,00% |-13,29% |
|114 |4 |74,19% |2 |56,00% |-18,19% |
|116 |0 |74,19% |1 |60,00% |-14,19% |
|117 |0 |74,19% |1 |64,00% |-10,19% |
|119 |5 |90,32% |2 |72,00% |-18,32% |
|123 |1 |93,55% |0 |72,00% |-21,55% |
|127 |1 |96,77% |3 |84,00% |-12,77% |
|132 |1 |100,00% |0 |84,00% |-16,00% |
|137 |0 |100,00% |2 |92,00% |-8,00% |
|143 |0 |100,00% |2 |100,00% |,00% |
|Total |31 | |25 | | |
De plus, il semble que Statistica utilise des tables spécifiques à ce test,
et non une approximation par un khi-2.
Il peut être intéressant de visualiser la "distance" entre les deux courbes
cumulatives à l'aide d'un graphique. Par exemple, utilisez le bouton
"Histogramme catégorisé par groupe" du dialogue obtenu par le menu
Statistiques - Tests non paramétriques - Comparaison de deux échantillons
indépendants. Avec quelques modifications du graphique, on peut obtenir la
représentation suivante :
[pic]
Modifications à faire à partir du graphique produit avec les réglages par
défaut de Statistica : à l'aide du bouton droit de la souris, sélectionnez
l'item de menu Propriétés du graphique (Toutes les options)... puis :
- Sous l'onglet Tracé -- Histogramme, sélectionnez Représentation de
l'histogramme : cumulé
- Sous l'onglet Tracé -- Histogramme, dans la zone Propriétés, cochez la
boîte Effectifs relatifs cumulés
- Sous l'onglet Catégorisation, dans la zone Mise en forme des catégories,
sélectionnez Superposées
- Sous l'onglet Tracé -- Ajustement, cliquez sur le bouton Supprimer de la
zone Type d'ajustement.
Remarque.
Le test de Kolmogorov-Smirnov peut être utilisé pour tester soit une
hypothèse unilatérale (la VD a une intensité plus grande dans l'un des
groupes), soit une hypothèse bilatérale (la distribution de la VD n'est pas
la même dans les deux groupes). Comme pour les autres tests, Statistica ne
fournit que le test bilatéral.
3 Test de Wald-Wolfowitz
Objectif du test : comparer les distributions de la variable dépendante
dans deux ou plusieurs groupes indépendants, lorsque la variable
dépendante, ordinale ou numérique, ne comporte pas d'ex aequo. Ce test
étudie notamment si l'interclassement des valeurs issues des deux groupes
peut être dû au hasard.
Ainsi que nous l'avons vu en cours, le test de Wald-Wolfowitz s'applique à
une variable continue, ne comportant pas d'ex aequo. Son application à des
données telles que celles de Enfants-PRN.stw risque donc de réserver
quelques surprises... Nous utiliserons donc un autre exemple pour présenter
ce test.
En vue d'une expérience, vous avez recruté 50 sujets que vous devez
affecter au hasard à l'une ou l'autre de deux conditions expérimentales.
Pour cela :
- Vous saisissez les identifiants des 50 sujets dans une colonne d'une
feuille de données Statistica (par exemple, vous utilisez comme
identifiants les nombres de 1 à 50).
Définissez un nouveau classeur Statistica, insérez dans ce classeur une
feuille de données comportant 50 lignes. Dans la première variable, appelée
Sujets, saisissez les valeurs 1 et 2, puis utilisez la souris pour réaliser
une copie incrémentée :
[pic]
- Vous générez dans une deuxième colonne une suite de nombres aléatoires
compris entre 0 et 1 (menu Edition - Remplir Centrer-réduire le bloc -
Remplir de valeurs aléatoires.
- Vous affectez ensuite chacun des sujets à l'une ou l'autre des conditions
expérimentales A et B en comparant à 0,5 le nombre aléatoire correspondant.
Pour cela, créez une troisième variable, calculée à l'aide de la formule :
=iif(v2