Eléments de classification - CEL - Cours en ligne

K-means. Compléments. Description des classes. Classification ascendante hiérarchique (CAH). 1 Introduction. 2 Principes de la Classification Ascendante 

Part of the document

Université de Caen

TABLE DES MATIÈRES
Table des matières
1 Introduction5
1.1 Classification non-supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2 Classification supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3 Les métiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2 Enjeux de la classification non-supervisée 9
3 Étude de la ressemblance 11
3.1 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.2 Distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.3 Écarts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
4 Algorithme de Classification Ascendante Hiérarchique (CAH) 23
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.2 Description de l"algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.3 Dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.4 Quelques commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5 CAH et méthode de Ward; compléments 33
6 Qualité d"une partition 41
7 ACP et CAH45
8 Caractérisation des groupes 47
9 Algorithme des centres mobiles (k means) 49
10 Consolidation de l"algorithme de CAH 61
11 CAH avec des caractères qualitatifs 63
12 Enjeux de la classification supervisée 69C. Chesneau3
TABLE DES MATIÈRES
13 Méthode deskplus proches voisins 71
14 Modèle de mélange de densités 77
15 Régression logistique 81
Index85
Note
Ce document résume les notions abordées dans le coursÉléments de classificationdu Master
1 MIASHS de l"université de Caen.
Un des objectifs est de donner des pistes de réflexion au regroupement/classification des
individus à partir de données.
Les méthodes statistiques y sont décrites de manière concise, avec les commandes R associées.
N"hésitez pas à me contacter pour tout commentaire :
christophe.chesneau@gmail.com
Bonne lecture!C. Chesneau4
1 INTRODUCTION
1 Introduction
On présente ici les enjeux de la classification non-supervisée et de la classification supervisée.
1.1 Classification non-supervisée
Contexte :On considèrenindividus extraits au hasard d"une population. Pour chacun d"entre eux,
on dispose depvaleurs depcaractèresX1;:::;Xp.
Objectif :Partant des données, l"objectif est de regrouper/classer les individus qui se ressemblent le
plus/qui ont des caractéristiques semblables.
Ce regroupement peut avoir des buts divers : tenter de séparer des individus appartenant à
des sous-populations distinctes, décrire les données en procédant à une réduction du nombre
d"individus pour communiquer, simplifier, exposer les résultats...
Exemple :Dans une classe, un professeur souhaite faire des binômes constitués d"élèves ayant des
compétences semblables. Parmi ceux-ci,6élèves ont obtenu les notes suivantes :Maths Physique Ed Mus Art Plas