Séance n°3 Proc REG - SAS / Insight

la méthode des moindres carrés. UTILISER LA .... LINEAIRE. Les méthodes
précédentes s'appliquent à des séries statistiques à une seule variable, en
général chronologiques. .... Pour la corrélation linéaire, il est possible de trouver
une relation mathématique entre xi et yi => il s'agit de la droite dite droite de
régression.

Part of the document

Séance n°3 Proc REG - SAS / Insight
De nombreux problèmes peuvent être décrits sous la forme d'un système à
entrées et sorties : on peut plus ou moins agir sur les variables d'entrée
X d'un système (variables descriptives) et on observe les variables de
sortie Y (variables dépendantes). Le but de cette séance est de comprendre
et de décrire simplement les relations entre Y et X lorsqu'un ajustement
linéaire s'applique. Le modèle linéaire dans SAS est notamment traité par
les procédures ANOVA (modèles d'analyse de la variance orthogonaux), REG
(régression linéaire), GLM (modèles d'analyse de la variance non-
orthogonaux, analyse de la covariance, modèles linéaires généraux), GENMOD
(modèles linéaires généralisés), PLS (régression « Partial Least Squares »)
et MIXED (modèles linéaires mixtes). En particulier, nous nous intéressons
ici à la proc REG. Des exemples sont donnés en exercice.
Référence bibliographique :
J. Confais et M. Le Guen (2006) : Premiers pas en régression linéaire avec
SAS, Revue modulad, n°35 http://www-roc.inria.fr/axis/modulad/numero-35/Tutoriel-confais-
35/confais-35.pdf
Pour le récupérer :
cp -R /home/saintpierreg/TPSAS/TP3/confais-35.pdf
/home/XXX/TPSAS/XX/confais-35.pdf 1. Proc REG Modèle : pour [pic] observations et [pic] descripteurs, la proc REG de
SAS traite le modèle de régression : [pic] (cf page 260, num35) où [pic] désigne le vecteur dépendant ;
[pic] la matrice des [pic] descripteurs ; [pic] le terme d'erreur ;
[pic] et [pic]les paramètres du modèle que l'on souhaite estimer. Le modèle s'écrit aussi sous la forme matricielle : [pic] (cf page
262) et par la méthode des moindres carrés ordinaires, nous obtenons un
estimateur sans biais et de variance minimale pour [pic] : [pic].
La syntaxe de la proc REG est donnée dans la séance n°2. On pourra trouver
un résumé dans l'annexe 1 page 342 ; pour prolonger notre étude, nous
décrivons les sorties et nous donnons quelques options liées à la
procédure : o SORTIES :
Lisez ce qui suit, un exemple simple permettra ensuite de se familiariser
avec toutes ces notions. 1. Table d'analyse de la variance . DF : degrés de liberté associés au modèle et à l'erreur ;
. Sum of Squares (SS) ; Traduction : SCE, Somme des carrés des écarts.
. MSE : Mean Square Error (cf page 233)
. Mean Square (MS) : [pic] ;
. F Value : valeur de la statistique de Fisher du test du modèle où tous
les coefficients sont nuls contre le modèle complet de régression ;
. Prob>F : probabilité que la valeur d'une statistique suivant la loi de
Fisher dépasse la valeur du « F Value » ;
. Root MSE : estimation de [pic], [pic] ;
. Dep Mean : valeur de [pic] ;
. C.V. : coefficient de variation, [pic] ;
. R-Square : part de la variance expliquée par le modèle, [pic] ;
. Adj R-Sq : estimation sans biais de R2,
[pic] = [pic]
= [pic].
2. Estimation des paramètres . INTERCEP : paramètre Intercept [pic] ;
. Parameter Estimate : estimateur du vecteur [pic], [pic] ;
. Standard Error : estimation de l'écart type de l'erreur ;
. T for H0 : Parameter=0 : test de Student de nullité du coefficient ;
. Prob>|T| : probabilité que la valeur d'une statistique suivant la loi de
Student dépasse T en valeur absolue ; o OPTIONS liées à l'instruction MODEL : . COVB : matrice des variances et covariances des estimateurs de [pic] ;
. CP : la valeur prise par le « Cp » de Mallows ;
. P : les valeurs prédites ;
. R : pour obtenir une analyse des résidus ;
. DW : pour calculer la statistique de test de Durbin-Watson ;
. TOL, VIF : colinéarité d'un descripteur vis à vis des autres ;
. Influence : analyse détaillée de l'influence de chaque observation sur
les valeurs estimées et prédites. Sélection des descripteurs. En particulier, la proc REG offre des
possibilités supplémentaires en ce qui concerne le choix automatique des
descripteurs et la recherche de corrélations en termes d'erreurs. . SELECTION = < méthode > ; pour sélectionner les descripteurs du modèle où
méthode peut prendre les valeurs suivantes :
- stepwise pour une sélection progressive (« pas à pas ») des
descripteurs ;
- forward pour une sélection ascendante ;
- backward pour une élimination descendante...
- rsquare calcule tous les [pic] modèles possibles avec [pic] descripteurs.
On peut aussi se restreindre à la recherche du meilleur modèle à 1 puis 2
puis 3, ..., puis [pic] descripteurs au sens du critère du Cp de Mallows
à l'aide de l'option selection=rsquare best=1 cp;. À [pic] fixé, on
choisira le modèle qui donne le plus grand R2. Étude des résidus. L'étude des résidus est une étape essentielle pour
valider un modèle. En effet, les résidus sont des estimateurs des termes
d'erreur qui doivent vérifier les hypothèses sous-jacentes au modèle :
indépendance, moyenne nulle, variance constante (critère
d'homoscédasticité) et éventuellement de distribution Gaussienne. Pour ce
faire, la proc UNIVARIATE calcule la moyenne ; et apporte des tests de
normalité avec l'option NORMAL : Shapiro-Wilk, Kolmogorov-Smirnov, Cramér-
von Mises, Anderson-Darling ou encore la « droite de Henri ». Une étude du
graphe des résidus par rapport aux valeurs prédites de la variable
dépendante ne doit laisser apparaître aucune tendance. L'option DW de la
proc REG fournit la valeur de la statistique de Durbin-Watson pour tester
l'autocorrélation des résidus. Pour le critère d'homoscédasticité, l'option
SPEC de la proc REG produit un test du Chi2. L'étude des résidus permet
aussi de repérer d'éventuelles observations « aberrantes » ou des
observations qui jouent un rôle important dans la détermination de la
régression. Sauvegarde des résultats. Il est possible de conserver dans une table SAS
certains résultats de l'analyse tels que, par exemple, les résidus
(residual ou R) et les valeurs prédites de la variable dépendante Y
(predicted ou P). Pour cela, nous ajoutons après la définition du modèle la
ligne : OUTPUT OUT = < nom_tab > R = < nom_var1 > P = < nom_var2 >; Exemple DATA tension;
INPUT age tension;
CARDS;
35 114
45 124
55 143
65 158
75 166
;
RUN;
PROC REG DATA=tension CORR SIMPLE OUTEST=estcoeff;
MODEL tension = age / SPEC DW R CLI;
PLOT tension*age p.*age / overlay symbol = '.';
OUTPUT OUT=sorties P=P R=R;
RUN;
QUIT; La commande « OUTEST= » permet de créer une table SAS qui conserve les
valeurs estimées des coefficients de la régression. L'option CLI donne un
intervalle de confiance à 95% pour chacune des valeurs prédites de la
variable dépendante. La seconde ligne de la proc REG définit la
modélisation souhaitée. Dans la troisième ligne, nous proposons aussi un
graphique qui superpose le nuage de points et la droite d'ajustement. Exercice Exécuter le programme ci-dessus et observer les sorties.
Essayez en rajoutant la ligne suivante :
PLOT rstudent.*obs. / vref= -1.714 1.714 cvref=blue lvref=1
href= 0 to 30 by 5 chref=red cframe=ligr; Remarques sur la stabilité des coefficients
cf. [Saporta G. (2006) : Probabilités, analyse des données et statistique,
2e édition, éditions Technip] L'écart-type des valeurs [pic] donne déjà une bonne indication du caractère
plus ou moins stable de l'estimation d'un coefficient. Si l'écart-type est
du même ordre de grandeur que la valeur estimée, il est clair que celle-ci
est mal déterminée !
La principale source d'instabilité pour estimer de [pic] est la
multicolinéarité (quand les descripteurs sont très corrélés entre eux).
Dans ce cas, le déterminant de la matrice [pic] est proche de 0 et son
inverse aura des termes très élevés. Malgré une valeur élevée du R2, on
pourra avoir des erreurs considérables dans les prédictions. Pour palier
les problèmes liés à la multicolinéarité sans pour autant exclure des
variables du modèle, il existe des alternatives au modèle de régression :
régression sur composantes principales, régression PLS ou encore la « ridge
regression » en perturbant légèrement la diagonale de la matrice [pic] par
une constante [pic] positive. 2. SAS/Insight : exploration interactive de données Le module SAS/Insight est un outil dynamique pour l'analyse exploratoire
et graphique d'un jeu de données. Il se présente sous la forme d'une
interface « presse-boutons » permettant notamment d'examiner les
distributions univariées, de visualiser les données et de construire des
modèles utilisant la régression, l'analyse de la variance et le modèle
linéaire généralisé. Pour ce faire, l'utilisateur dispose d'un système de
menus déroulants et de boutons pour effectuer l'étude statistique sans
avoir à écrire de code SAS dans la fenêtre Program Editor. Cf mode d'emploi
succinct page 347. Appel de SAS/Insight Explorer > solution > tools > analysis > Interactive Data Analysis Exercice n°1 : un exemple de régression linéaire simple Soit un échantillon de n=24 appartements parisiens. Pour chaque
appartement, on dispose de sa surface en mètres carrés et de son prix de
vente en milliers d'euros. Ces données sont extraites de [Tenenhaus M.
(2007) : Statistique, Méthodes pour décrire, expliquer et prévoir, Dunod,
Paris] ; et rappelées ci-dessous : S (m2) |28 |50 |196 |55 |190 |110 |60 |48 |90 |35 |86 |65 | |P (kE) |130
|280 |800 |268 |790 |500 |320 |250 |378 |250 |350 |300 | | | | | | | | | |
| | | | | |S (m2) |32 |52 |40 |70 |28 |30 |105 |52 |80 |60 |20 |100 | |P
(kE) |155 |245 |200 |325 |85 |78 |375 |2