19. Régression linéaire à deux ou plusieurs variables

la qualité des tests et examens (Examen) .... Exercice adapté à partir de "Les
disparités géographiques des dépenses de santé: deux modèles explicatifs pour
le secteur libéral", ... le taux de mortalité, corrigé de la structure par âge de la
population totale ... Méd - 18,9 * Mobi Géné - 3,57 * Mobi Spéc + 72.2 * Mort. + 72
,2 ...

Part of the document


Master de Psychologie - 1ère année
PSY73B : Informatique : traitement des données - TD N°4
Corrélation et régression Corrélation linéaire
1 Coefficient de corrélation L'association des étudiants d'une grande université (américaine) a publié
une évaluation de plus de cent cours enseignés durant le semestre
précédent. Les étudiants de chaque cours avaient rempli un questionnaire
d'évaluation portant sur différents aspects du cours; l'évaluation se
faisait sur une échelle en cinq points (1=très mauvais, 5=excellent).
Les données saisies dans le fichier Eval-Cours.stw sont les données
réelles. Elles représentent les scores moyens enregistrés sur 6 variables
pour un échantillon de 50 cours.
Ces variables étaient :
- la qualité globale des exposés (Qual-Glob)
- les aptitudes pédagogiques du professeur (Pédagogie)
- la qualité des tests et examens (Examen)
- la connaissance de la matière dont témoigne le professeur, telle
qu'elle est perçue par les étudiants (Connaissance)
- les résultats auxquels s'attendent les étudiants pour ce cours
(Résultat, de très bon à insuffisant)
- le nombre d'inscriptions à ce cours (Inscription) On souhaite étudier les liens qui existent entre ces différentes variables. Pour obtenir les coefficients de corrélation entre les différentes
variables, on pourra utiliser le menu Statistiques - Statistiques
Elémentaires - Matrices de corrélation. On peut utiliser l'onglet "Options"
pour limiter l'affichage à la matrice des corrélations : [pic] [pic] On voit que les coefficients de corrélation entre les 5 premières variables
sont positifs, alors que la 6ème variable est corrélée négativement (anti-
corrélée) avec les 5 autres.
2 Alpha de Cronbach On reprend les données Enquete-Fraude.stw, décrites dans le polycopié
précédent. On souhaite mesurer la cohérence des réponses des sujets quant
aux techniques de fraude, afin d'estimer s'il est pertinent de construire
une variable telle que ScoreTricheTotal. Utilisez le menu Statistiques - Techniques exploratoires multivariées -
Fiabilité et analyse d'échelle. Sélectionnez les variables de "Copier" jusqu'à "Autres" et cliquez sur OK.
[pic]
On peut alors afficher les corrélations entre les variables à l'aide du
bouton "corrélations". Toutefois, le menu Statistiques - Statistiques
Elémentaires - Matrices de corrélation permet également de visualiser quels
sont les coefficients de corrélation qui sont significatifs d'un lien entre
les variables. L'onglet "Matrice" permet d'afficher les données dans une feuille de
données d'un type particulier, une matrice, pour servir par exemple de
données d'entrée à une classification.
[pic]
Une telle feuille est caractérisée par la présence d'observations
supplémentaires dans le bas du tableau :
[pic]
et s'enregistre dans un format particulier (fichiers d'extension .smx). Cliquez ensuite sur le bouton OK. On affiche ainsi la fenêtre de dialogue
suivante :
[pic]
La valeur du coefficient Alpha de Cronbach pour l'ensemble des items est
0,79. Le coefficient standardisé est celui que l'on obtiendrait en
effectuant une transformation par centrage et réduction sur chaque variable
avant de faire la somme.
Le bouton "Synthèse" permet d'avoir des résultats plus détaillés : [pic]
On voit, par exemple, que l'on pourrait améliorer le coefficient Alpha en
retirant la variable "GarderCopie" ou la variable "Autres". 3 Corrélation des rangs La distribution des variables évaluant les différentes techniques de fraude
s'écarte notablement d'une loi normale. Pour mesurer les liens existant
entre ces variables il peut sembler préférable de calculer des coefficients
de corrélation non paramétriques. Utilisez le menu Statistiques - Tests non paramétriques - Corrélations
(Spearman, tau de Kendall, Gamma). Vous obtenez pour le R de Spearman :
[pic]
et, pour le tau de Kendall :
[pic] Quant à la statistique Gamma, l'aide de Statistica 7 indique : Gamma. La statistique Gamma (Siegel & Castellan, 1988) est préférable au R
de Spearman ou au Tau de Kendall lorsque les données contiennent de
nombreux ex-aequo. En termes d'hypothèses sous-jacentes, Gamma est
équivalent au R de Spearman ou au Tau de Kendall ; en termes
d'interprétation et de calculs, il est plus proche du Tau de Kendall que du
R de Spearman. En résumé, Gamma est également une probabilité ; plus
précisément, il se calcule comme la différence entre la probabilité que le
rang de deux variables soit identique, moins la probabilité qu'il soit
différent, divisé par 1 moins la probabilité d'ex-aequo. C'est pourquoi,
Gamma est en fait équivalent au Tau de Kendall, à la différence que les ex-
aequo sont ici, explicitement pris en compte. Régression linéaire à deux ou plusieurs variables
1 Régression linéaire à deux variables On reprend les données Eval-Cours.stw utilisées au paragraphe 18.1. On
souhaite déterminer la droite de régression de Qual-Glob par rapport à
Pédagogie.
1 Equation de la droite de régression On peut, pour cela, utiliser le menu Statistiques - Régression linéaire
multiple :
[pic]
On indique Qual-Glob comme variable dépendante, Pédagogie comme variable
indépendante et on clique sur OK.
Le bouton "Synthèse : résultats de la régression" du dialogue suivant
permet d'obtenir l'équation de la droite de régression : [pic]
On obtient ainsi comme équation pour la régression :
Qual-Glob = 0,1541 + 0,9268 * Pédagogie.
2 Nuage de points et droite de régression Le plus simple est d'utiliser ici le menu Statistiques - Statistiques
Elémentaires - Statistiques Descriptives et l'onglet "Nuages de
points/probas" : [pic] Statistica nous affiche le nuage de points, la droite de régression, et les
"bandes" donnant l'intervalle de confiance pour la droite de régression, au
degré de confiance de 95%. Cet intervalle de confiance correspond aux
différentes positions que la droite serait susceptible d'occuper si on
recommençait les calculs à partir d'un autre échantillon. En cliquant sur le graphique à l'aide du bouton droit de la souris, on a
accès au menu Propriétés du Graphique (Toutes les Options). L'onglet
"Bandes de Régr" permet alors de supprimer les bandes donnant l'intervalle
de confiance, ou de leur substituer les représentations graphiques de
l'intervalle de détermination, c'est-à-dire la bande du plan qui devrait
rassembler 95% des couples (x, y) observés sur la population. On peut aussi (comme ci-dessous), représenter les deux types de bandes en
introduisant un deuxième jeu de bandes à l'aide du bouton "Nouvelles
Bandes".
[pic]
2 Régression linéaire à plusieurs variables : recherche d'un modèle
explicatif
1 Présentation de l'exemple Exercice adapté à partir de "Les disparités géographiques des dépenses de
santé: deux modèles explicatifs pour le secteur libéral", de Roquefeuil,
L., Solidarité Santé, N° 4, 1996. Des variations dans le niveau des dépenses de santé allant du simple au
double ont été observées entre les départements. Plusieurs variables
peuvent expliquer ce phénomène : la densité des médecins libéraux et la
densité de leur clientèle, la morbidité de la population, la proportion de
personnes âgées ou l'influence du tiers-payant sur la dépense. Sont
étudiées ici :
- l'IDRS ou indicateur des dépenses de remboursement de soins du
secteur libéral - la densité de médecins libéraux dans l'unité géographique concernée - la mobilité de la clientèle des médecins libéraux : un indicateur de
mobilité positif signifie que la valeur des soins "produits" par les
médecins de l'unité géographique est supérieure à la valeur des soins
"consommés" par la population de l'unité ; un indicateur négatif au
contraire, signifie qu'une partie de la population de l'unité va se
faire soigner à l'extérieur de celle-ci. - la mobilité de la clientèle des médecins spécialistes - le taux de mortalité, corrigé de la structure par âge de la
population totale - la proportion de personnes âgées de 70 ans et plus - la part (en %) de dépenses de santé réglées en tiers payant. Deux niveaux d'unités géographiques sont considérés : les données sont
fournies par département et par région. N.B. Les données figurant dans le fichier sont celles indiquées par
l'auteur en annexe de son article, et non des données recréées
artificiellement. 2 Etude au niveau départemental Ouvrez le classeur IDRS.stw et activez la feuille IDRS-Dept.
Affichez les statistiques descriptives relatives aux données présentées.
Vous devriez obtenir : [pic] Affichez la matrice des corrélations entre les variables : [pic] Effectuez ensuite une régression linéaire multiple de la variable IDRS sur
les autres variables numériques. Utilisez ensuite le menu Statistiques - Régression Multiple
Sous l'onglet "Base", spécifiez IDRS comme variable dépendante, les 6
autres variables numériques comme variables indépendantes.