S7 de Psychologie Sociale - TD n° 4
Spécifiez la variable dépendante et la variable de classement, puis cliquez sur le
bouton "Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane". On obtient ...
Part of the document
Master de Psychologie sociale des représentations
PSR73C : Informatique - TD N°3
Tests non paramétriques
Tests non paramétriques sur des groupes indépendants
1 Test de la médiane Ouvrez le classeur Statistica Enfants-PRN.stw. On veut comparer l'IDM à 24 mois dans le groupe témoin et dans le groupe
expérimental à l'aide d'un test de la médiane.
Rappel de la méthode : on construit un tableau de contingence en croisant
les variables "Groupe" et "Position par rapport à la médiane" et on réalise
un test du khi-deux sur le tableau de contingence obtenu.
En utilisant, par exemple, le menu Statistiques - Tests non paramétriques -
Statistiques ordinales, vérifiez que la médiane des IDM à 24 mois est égale
à 111,5. Dans le cours, le test de la médiane a été présenté avec une variable
"Groupe" à deux modalités. Cependant, la méthode peut s'étendre sans
difficultés au cas où la variable "Groupe" comporte plus de deux modalités.
C'est pourquoi Statistica range ce test dans le menu : Statistiques - Tests
non paramétriques - Comparaison de plusieurs échantillons indépendants : [pic] Spécifiez la variable dépendante et la variable de classement, puis cliquez
sur le bouton "Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane". On
obtient le résultat suivant : [pic] Remarque : Le test de la médiane ne met pas en évidence de différence entre
les deux groupes. En revanche, un test unilatéral de comparaison de
moyennes établit une différence au bénéfice du groupe expérimental. Mais le
test de la médiane est moins puissant, et c'est nécessairement un test
bilatéral. 2 Test bilatéral de Kolmogorov-Smirnov On reprend la comparaison des deux groupes à l'aide du test de Kolmogorov-
Smirnov.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez
l'item "Comparaison de deux échantillons indépendants". Si nécessaire,
spécifiez de nouveau la variable dépendante et la variable de classement,
puis cliquez sur le bouton "Test de Kolmogorov-S. de deux échant.".
Vous devriez obtenir le résultat suivant : [pic]
On sait que la mise en oeuvre du test de Kolmogorov-Smirnov repose sur le
choix d'un découpage en classes, puis la détermination des fonctions de
répartition (fréquences cumulées) des deux distributions observées. Il est
légitime de se demander quelles sont les bornes de classes utilisées par
Statistica.
Quelques manipulations sous Excel montrent que Statistica prend en fait
l'ensemble des modalités observées comme bornes de classes, et construit
donc le tableau de fréquences cumulées suivant : | |Groupe | |Groupe | | |
| |témoin | |expérimen| | |
| | | |tal | | |
|Classes |Fréquence|% cumulé |Fréquence|% cumulé |Différenc|
| | | | | |e |
|80 |1 |3,23% |0 |,00% |-3,23% |
|81 |1 |6,45% |0 |,00% |-6,45% |
|88 |1 |9,68% |0 |,00% |-9,68% |
|91 |3 |19,35% |0 |,00% |-19,35% |
|96 |1 |22,58% |1 |4,00% |-18,58% |
|98 |0 |22,58% |1 |8,00% |-14,58% |
|100 |1 |25,81% |0 |8,00% |-17,81% |
|102 |3 |35,48% |0 |8,00% |-27,48% |
|104 |4 |48,39% |0 |8,00% |-40,39% |
|106 |1 |51,61% |1 |12,00% |-39,61% |
|106 |0 |51,61% |0 |12,00% |-39,61% |
|109 |2 |58,06% |6 |36,00% |-22,06% |
|111 |1 |61,29% |0 |36,00% |-25,29% |
|112 |0 |61,29% |3 |48,00% |-13,29% |
|114 |4 |74,19% |2 |56,00% |-18,19% |
|116 |0 |74,19% |1 |60,00% |-14,19% |
|117 |0 |74,19% |1 |64,00% |-10,19% |
|119 |5 |90,32% |2 |72,00% |-18,32% |
|123 |1 |93,55% |0 |72,00% |-21,55% |
|127 |1 |96,77% |3 |84,00% |-12,77% |
|132 |1 |100,00% |0 |84,00% |-16,00% |
|137 |0 |100,00% |2 |92,00% |-8,00% |
|143 |0 |100,00% |2 |100,00% |,00% |
|Total |31 | |25 | | | De plus, il semble que Statistica utilise des tables spécifiques à ce test,
et non une approximation par un khi-2.
Il peut être intéressant de visualiser la "distance" entre les deux courbes
cumulatives à l'aide d'un graphique. Par exemple, utilisez le bouton
"Histogramme catégorisé par groupe" du dialogue obtenu par le menu
Statistiques - Tests non paramétriques - Comparaison de deux échantillons
indépendants. Avec quelques modifications du graphique, on peut obtenir la
représentation suivante : [pic]
Remarque.
Le test de Kolmogorov-Smirnov peut être utilisé pour tester soit une
hypothèse unilatérale (la VD a une intensité plus grande dans l'un des
groupes), soit une hypothèse bilatérale (la distribution de la VD n'est pas
la même dans les deux groupes). Comme pour les autres tests, Statistica ne
fournit que le test bilatéral. 3 Test de Wald-Wolfowitz Ainsi que nous l'avons vu en cours, le test de Wald-Wolfowitz s'applique à
une variable continue, ne comportant pas d'ex-aequo. Son application à des
données telles que celles de Enfants-PRN.stw risque donc de réserver
quelques surprises... Nous utiliserons donc un autre exemple pour présenter
ce test. Exemple :
Des mesures de pollution organique dans deux rivières ont donné les
résultats suivants : |Riv. |34 |12 |36 |31 |43 |16 |15 |10 | | | |
|A | | | | | | | | | | | |
|Riv. |65 |76 |18 |27 |21 |49 |20 |45 |41 |17 |58 |
|B | | | | | | | | | | | | Au vu des valeurs rencontrées, est-il possible que ces pollutions soient
dues à une origine commune (c'est-à-dire, est-il possible que ces valeurs
soient obtenues par un tirage au hasard dans une même population) ? Saisissez (sous une forme convenable) ces données dans une feuille de
données Statistica.
Réalisez ensuite un test de Wald-Wolfowitz, à l'aide du menu : Statistiques
- Tests non paramétriques - Comparaison de deux échantillons indépendants -
Test des suites de Wald-Wolfowitz. On obtient le résultat suivant : [pic] Remarquez que la valeur de Z indiquerait un test significatif à 5%, alors
que la valeur de "Z ajusté" indique un résultat non significatif. Vu la
faible taille des échantillons, c'est ce dernier résultat qui doit être
préféré. Les tables spécifiques pour ce test indiquent justement u=6 comme
"valeur critique", c'est-à-dire plus grande valeur rendant le test
significatif à 5%. Quels sont les calculs faits par Statistica ?
On peut vérifier que Z= -2.0674 correspond à la formule donnée dans le
cours, sans la correction de continuité, tandis que Z= -1,8249 correspond à
cette même formule, correction de continuité comprise. En effet :
[pic] et [pic]
D'où : [pic] et [pic].
On peut remarquer également que Statistica ne prend aucune précaution
particulière pour traiter les petits échantillons, et que c'est donc à
l'utilisateur qu'il appartient d'apprécier si l'approximation par la loi
normale est ou non légitime.
Notons enfin que, comme pour tous les autres tests, les niveaux de
significativité indiqués correspondent à un test bilatéral. Les résultats fournis par Statistica comportent une cellule "Nombre d'ex-
aequo". En principe, le test des suites s'applique dans des situations où
il n'y a pas d'ex-aequo. Il faut également remarquer que Statistica détecte
très mal la présence d'ex-aequo, comme le montre le fichier Pollution.stw.
4 Protocoles de rangs et test de Wilcoxon Mann Whitney
1 Le test de Wilcoxon Mann Whitney - Groupes indépendants On reprend le fichier Enfants-PRN.stw. La comparaison faite précédemment à l'aide d'un test de la médiane peut
être reprise à l'aide d'un test de Wilcoxon Mann Whitney.
Reprenez le menu Statistiques - Tests non paramétriques. Sélectionnez
l'item "Comparaison de deux échantillons indépendants". Si nécessaire,
spécifiez de nouveau la variable dépendante et la variable de classement,
puis cliquez sur le bouton "Test U de Mann-Whitney". Vous devriez obtenir
comme résultat : [pic] Statistica nous indique ici trois niveaux de significativité différents :
1,22%, 1,19% et 1,14%. A quoi correspondent ces résultats ? La première valeur indiquée pour Z, et le premier niveau de significativité
indiqué correspondent à la statistique pour "grands échantillons" donnée
dans le cours, pour un test bilatéral. La valeur "Z ajusté" correspond à une statistique Z pour grands
échantillons, avec la prise en compte d'une correction pour les ex-aequo. Le troisième niveau de significativité (0,011429) correspond à
l'utilisation de la "vraie" distribution des rangs, sans approximation par
une loi normale, mais aussi sans tenir compte des ex-aequo.
2 Comparaison de la première valeur Z et de la valeur obtenue par la
statistique du cours
La statistique calculée par Statistica est-elle la même statistique que
celle indiquée en cours ?
Statistica calcule les sommes des rangs W1 et W2. On peut vérifier que la
valeur Z indiquée (-2,505) correspond bien à la formule du cours :