Exploration des données par le logiciel SPSS - Examen corrige
découverte de SPSS, manipulation de données : compute, recode ... tels que la
statistique spatiale ou le data mining (la fouille des données) . ... vers des
documents de cours et/ou d'exercices se rapportant aux différentes parties
traitées.
Part of the document
Exploration des données par le logiciel SPSS I) Initiation au logiciel
- présentation du logiciel SPSS
- découverte de SPSS, manipulation de données : compute, recode
- traitement des sorties : Tableaux , Graphiques
II) Premières analyses : statistique descriptive
- l'histograme
- la boîte à moustaches
- Présentations et résumés
III) Les tests d'hypothèses statistiques
- Etude d'un échantillon : one sample
- comparaison de deux moyennes
- Analyse de la variance : anova - F test
- tableaux croisés : tests du Chi2
IV) Les méthodes statistiques explicatives : essais de modélisation
- régression simple
- régression multiple
- régression logistique
V) Ecarts aux hypothèses du modèle linéaire :
- asymétrie,
- points aberrants,...
- données non normales (GLM)
VI) L'exploration multivariée
- ACP
- Classification
- Analyse discriminante
- AFC
VII) Les développements
- Les données géographiques et la commande Maps
- Le Data mining et le texte mining
Introduction
Ce document est tout d'abord une présentation d'un recueil de documents qui
traitent du logiciel SPSS classés par type de données et par thématique
statistique. Le point de départ qui a motivé ce travail est l'animation des
deux séminaires sur SPSS que j'ai effectuée au sein du bureau d'études
Ameritech - Rabat, à l'intention des cadres du ministère de l'habitat, du
26 octobre au 4 novembre 2007. Les plans des séminaires ont été dictés principalement par un contact
préalable avec quelques cadres du ministère qui se sont inscrits au
séminaire . Les besoins des participants ont ainsi été délimités, ce qui a
permis de développer d'avantages les aspects qui intéressent le plus
l'auditoire. Le 1er séminaire de cinq jours est d'avantages une initiation à SPSS et aux
traitements uni et bivariés des données, avec toutefois un aperçu sur les
tests d'hypothèse et la notion de risques liés à une décision, ainsi qu'un
premier abord des analyses multivariées. Le deuxième séminaire, également de cinq jours, traite des analyses, uni,
bi et multi- variées, des tests d'hypothèses et risques, de la modélisation
statistique, ainsi qu'une sensibilisation aux récents développements tels
que la statistique spatiale ou le data mining (la fouille des données) . Etant donné la diversité des notions abordées en traitement statistique des
données, le présent document est une synthèse qui a pour principal objet de
faciliter l'orientation et la progression du lecteur à travers les
références bibliographiques rencontrées lors des séminaires. Il est
fortement conseillé de développer les manipulations du logiciel appliquant,
pour chaque méthode, les notions recueillies des documents bibliographiques
sur les exemples pratiques qui accompagnent les documents ou à défaut ceux
intégrés au logiciel (études de cas et jeux de données). Ainsi chacun pourra prendre en charge sa propre exploitation des documents
et exemples en fonction d'objectifs de révisions ou d'approfondissements
qu'il se fixe. Enfin, étant donné le dynamisme connaît le sujet et son évolution
permanente, il est naturellement très intéressant de mettre à jour, voire
compléter les documents bibliographiques ci-joints, en effectuant de temps
à autre des recherches de nouveaux documents, notamment sur la toile du
web où les sites de plusieurs professeurs et laboratoires de recherche
offrent une multitude de ressources pédagogiques. On trouve également des
sites particulièrement consacrés à la statistique. Le site www.wikistat.ca
est dédié aux études de cas en traitement statistique et on y trouve
également plusieurs documents pédagogiques de statistique. I) Initiation au logiciel SPSS A) présentation du logiciel SPSS
Il est intéressant de lire à titre d'introduction générale:
- l'article sur SPSS fait dans l'encyclopédie sur l'Internet,
Wikipedia : http://fr.wikipedia.org/wiki/SPSS - ainsi que la présentation faite sur le site de SPSS Maghreb
http://www.spssmaroc.ma/spss/data_analysis.php
dont des extraits sont repris dans SPSS Maghreb.doc Par ailleurs, les possibilités de SPSS sont gigantesques et le meilleur
moyen pour bien cerner chacune des possibilités qu'offre le logiciel est de
pouvoir se référer très fréquemment au manuel de référence
Spss Base User's Guide 14.0.pdf.
Ce document est en effet, complet avec de nombreuses illustrations par des
boîtes de dialogue aidant à la compréhension des manipulations à faire pour
chaque commande. Toutefois une bonne exploitation du logiciel SPSS passe nécessairement par
un minimum de connaissances exactes des méthodes statistiques. A cet effet,
il est proposé tout le long du présent document des liens hypertextes vers
des documents de cours et/ou d'exercices se rapportant aux différentes
parties traitées. Un autre recours qu'il faut signaler ici est la fonction « Aide » intégrée
au logiciel. On y trouve non seulement un index de recherche accompagné
d'un lexique très développé pour chaque rubrique, mais aussi plusieurs
exemples et cas d'étude dont on peut suivre les démonstrations pas à pas
illustrant ainsi la grande partie des principales commandes et routines du
logiciel.
Il est utile de consulter à ce sujet le chapitre 2 de Spss Base User's
Guide 14.0.pdf. B) Découverte de SPSS, manipulation de données :
Le diaporama qui suit nous introduit directement dans la pratique du
logiciel : cours_spss.ppt Après cette première présentation et dès les premiers contact avec SPSS on
s'aperçoit que nous allons devoir nous familiariser avec un certain nombre
de fonctionnalités du logiciel, citons notamment :
- Les différentes interfaces de SPSS
o L'éditeur de données
. Le mode variables
. Le mode données
. Les étiquettes
. Les données manquantes
o La barre d'outils ; les commandes
. Les boîtes de dialogue
. L'éditeur de syntaxe
o L'éditeur de résultats
- L'introduction et les transformations de données
o Les différents types de variables
o La saisie des données et des caractéristiques des variables
o La sélection d'individus selon une condition : if
o La transformation des variables : la commande compute
Tous ces points qui ont fait l'objet des deux premiers jours du 1er
séminaire, peuvent être repris avec beaucoup d'intérêt dans le document de
Donald Long Introduction SPSS.pdf
Ou encore dans
SPSS Handbook.doc
Ou bien dans le document de SPSS Inc :
SPSS Brief Guide 13.0.pdf
Il y aégalement un document récent qui traite par ailleurs des possibilités
de programmation dans SPSS est
Spss For Dummies Apr 2007 Bbl.pdf
II) Premières analyses Compte tenu de la grande importance qu'occupe la statistique descriptive
comme première étape dans toute démarche de traitement et d'analyse de
données statistiques, il n'est pas inutile de rappeler ici deux notions
très utiles dans l'analyse des variables une à une : les histogrammes et
les boîtes à moustaches. Mais pour une présentation plus complète, un
certain nombre de documents sont présentés par la suite à travers des liens
hypertextes. Enfin il est très intéressant pour la pratique sur SPSS de
consulter les chapitres 14 et 15 du livre de référence :
Spss Base User's Guide 14.0.pdf
Ou encore de le se référer aux documents très complets :
SPSS book.pdf
et A Handbook Of Statistical Analyses Using Spss - Excellent !!!.pdf La statistique descriptive permet, à l'aide de tableaux et graphiques, de
visualiser les variables étudiée, d'abord une par une puis certains
tableaux et graphiques permettent de faire l'étude simultanée de deux
variables.
Par ailleurs des indicateurs numériques comme la moyenne, le mode,
l'étendue, l'écart-type ou le coefficient de corrélation synthétisent au
maximum l'information contenue dans les variables étudiées.
Par ailleurs, un certain nombre de graphiques sont très utiles dans la
description des variables et de la manière dont ils sont répartis. Citons
plus particulièrement les histogrammes et les diagrammes de Tuckey ou
boîtes à moustaches Les histogrammes
Dans le cas d'une variable continue, on peut construire un histogramme des
effectifs. Si les classes sont de même amplitude, en plaçant en ordonnée
les effectifs on obtient des rectangles dont la surface est proportionnelle
à l'effectif associé. Le cours st@atnet sur Internet présente dans son
chapitre complet sur la statistique descriptive la notion d'histogramme de
façon détaillée. On peut consulter ce cours à l'adresse :
http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm
Les boîtes à moustaches : Un document complet sur cette question est leguen2001b.pdf qu'on peut
également télécharger du site dédié aux documents pour la statistique:
www.wikistat.ca
Un résumé de ce travail, établi par Mr Lagzouli qui a beaucoup utilisé cet
outil dans son travail de thèse en microbiologie soutenu en 2008 à
l'Université Ibn Tofail, Kénitra, est très intéressant :
boîtes_moustaches.doc
Présentations et résumés
La statistique descriptive touche tous les aspects de description de
présentation et de résumés de l'information contenue dans un ou plusieurs
échantillons. Les documents suivants font un exposé complet du sujet :
descriptive.pdf ,
tableaux_graphiques.pdf ,
Exercice stat desc serie 1.pdf ,
parametres_stat.pdf ,
etude deux variables_doc.pdf
et Exercice_partie1.pdf . La pratique de la statistique descriptive par SPSS est présentée dans
TP_descriptive.pdf et beaucoup de détails peuvent être consultés dans
Spss Base User's Guide 14.0.pdf III) Les tests d'hypothèses statistiques
La notion de te