Classification sous SAS
... méthode des centres mobiles par celle des k-means (convergence plus rapide
) ... initiaux en empêchant les substitutions des centres les plus proches (choisir ...
Part of the document
CLASSIFICATION SOUS SAS
1) Méthodes de classifications automatiques Syntaxe : PROC FASTCLUS DATA= A OUT= B OUTSTAT= C MEAN=D
MAXITER= CONVERGENCE= DELETE= CLUSTER= DRIFT MAXC=
/RADIUS= VAR liste des variables quantitatives étudiées ; ID nom de la variable comportant le nom des individus ; WEIGH T variable ; RUN ; On doit spécifier soit l'option MAXC= ou RADIUS= option ou les deux.
N.B. souligné = facultatif FASTCLUS signifie FAST CLUSTERING ( = classification rapide ) A = Nom donné à la table SAS contenant les données B = Nom de la table SAS, créée automatiquement par SAS contenant, entre
autre, la variable CLUSTER(les assignements de classes) et la variable
DISTANCE (distance séparant l'individu du centre de la classe) C =Nom de la table contenant un résumé de l'analyse (classes,...). D= Nom de la table contenant les moyennes dans les classes et d'autres
statistiques pour chaque classe : FREQ_ : effectif de la classe ;
_RMSSTD_ : inertie intra-classe ; _NEAR_ : no de la classe la +
proche ; _GAP_ : distance entre le centre et l'autre centre le +
proche ; _RADIUS_ : distance max entre 1 individu et son centre ; X,
Y : coordonnées du centre de la classe DELETE=n supprime les centres avec ? n individus rattachés (pour éviter
d'avoir pour centre un « outlier »)
MAXC=n spécifie le nombre maximum de classes toléré, égal à 100 par
défaut.
MAXITER=n spécifie le nombre maximum d'itérations toléré pour recalculer
les centres. converge=0.02 : les itérations s'arrêtent quand plus aucun centre ne se
déplace d'une distance > 0.02 DRIFT : pour remplacer la méthode des centres mobiles par celle des k-means
(convergence plus rapide) RADIUS=d : spécifie la distance minimale entre 2 centres initiaux (= 0 par
défaut) REPLACE=none : accélère la phase de sélection des centres initiaux en
empêchant les substitutions des centres les plus proches (choisir
alors « radius » assez grand) -mieux vaut laisser l'option par défaut
« replace=full » 2) Méthodes de classifications hiérarchiques Syntaxe :
PROC CLUSTER DATA=A METHOD=methode utilisée OUTTREE=D SIMPLE
STD RSQ CCC PSEUDO; VAR liste des variables quantitatives étudiées ; ID nomid; WEIGH T variable ; PROC TREE DATA= D NCL=nombre de classes voulues
OUT=C(rename=(_NAME_=nomid) RUN; nomid=nom de la variable comportant le nom des individus A= table de données D= table stockant les info nécéssaires pour réaliser le dendogramme C=table de stockage des numeros de classes STD : Standardisation des variables SIMPLE : statistiques simples sur les données RSQ : édition du R-squared et semi-partial R-squared CCC : édition du CCC PSEUDO : édition du pseudo-F METHOD= méthode d'agregation utilisée. Il y a 11 méthodes, dont : - AVERAGE, average linkage - CENTROID :méthode des centroide - COMPLETE : complete linkage - - SINGLE : single linkage - WARD : méthode de ward 3) Visualisation sur les plans factoriels Syntaxe : PROC SORT DATA= K; BY nomid ; PROC SORT DATA= C; BY nomid ; RUN ; DATA E ; MERGE K C ; BY nomid ; RUN ; PROC PRINT DATA=E ; ID nomid ; VAR prin1 prin2....cluster; RUN; DATA L; SET K; xsys="2";ysys="2";X=prin1;Y=prin2;FUNCTION="label";TEXT=nomad;POSITION=2;SIZ
E=1; PROC GPLOT DATA=E; PLOT prin2*prin1=cluster/annotate=L; Run; OUT= B OUTSTAT= C MEAN=D MAXITER= CONVERGENCE=
DELETE= CLUSTER= DRIFT MAXC= /RADIUS= VAR liste des variables quantitatives étudiées ; ID nom de la variable comportant le nom des individus ; WEIGH T variable ; RUN ; K=table de sortie de l'ACP