Eléments de classification - CEL - Cours en ligne
K-means. Compléments. Description des classes. Classification ascendante hiérarchique (CAH). 1 Introduction. 2 Principes de la Classification Ascendante
Part of the document
Université de Caen
TABLE DES MATIÈRES
Table des matières
1 Introduction5
1.1 Classification non-supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2 Classification supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3 Les métiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2 Enjeux de la classification non-supervisée 9
3 Étude de la ressemblance 11
3.1 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.2 Distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.3 Écarts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
4 Algorithme de Classification Ascendante Hiérarchique (CAH) 23
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.2 Description de l"algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.3 Dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.4 Quelques commandes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5 CAH et méthode de Ward; compléments 33
6 Qualité d"une partition 41
7 ACP et CAH45
8 Caractérisation des groupes 47
9 Algorithme des centres mobiles (k means) 49
10 Consolidation de l"algorithme de CAH 61
11 CAH avec des caractères qualitatifs 63
12 Enjeux de la classification supervisée 69C. Chesneau3
TABLE DES MATIÈRES
13 Méthode deskplus proches voisins 71
14 Modèle de mélange de densités 77
15 Régression logistique 81
Index85
Note
Ce document résume les notions abordées dans le coursÉléments de classificationdu Master
1 MIASHS de l"université de Caen.
Un des objectifs est de donner des pistes de réflexion au regroupement/classification des
individus à partir de données.
Les méthodes statistiques y sont décrites de manière concise, avec les commandes R associées.
N"hésitez pas à me contacter pour tout commentaire :
christophe.chesneau@gmail.com
Bonne lecture!C. Chesneau4
1 INTRODUCTION
1 Introduction
On présente ici les enjeux de la classification non-supervisée et de la classification supervisée.
1.1 Classification non-supervisée
Contexte :On considèrenindividus extraits au hasard d"une population. Pour chacun d"entre eux,
on dispose depvaleurs depcaractèresX1;:::;Xp.
Objectif :Partant des données, l"objectif est de regrouper/classer les individus qui se ressemblent le
plus/qui ont des caractéristiques semblables.
Ce regroupement peut avoir des buts divers : tenter de séparer des individus appartenant à
des sous-populations distinctes, décrire les données en procédant à une réduction du nombre
d"individus pour communiquer, simplifier, exposer les résultats...
Exemple :Dans une classe, un professeur souhaite faire des binômes constitués d"élèves ayant des
compétences semblables. Parmi ceux-ci,6élèves ont obtenu les notes suivantes :Maths Physique Ed Mus Art Plas
Data Mining - Clustering 9 Algorithme des centres mobiles (k means). 49. 10 Consolidation de l'exercice?, à savoir : sj : l'écart-type corrigé des valeurs du caractère Xj,. ? le zobs :.
Regroupement (clustering) 9 Algorithme des centres mobiles (k means). 49. 10 Consolidation de 16 Exercices. 85 sj : l'écart-type corrigé des valeurs du caractère Xj,. ? le zobs,(j,g) :.
Tutorial exercises Clustering ? K-means, Nearest Neighbor and Corrigé. Exercice 1 (03 points) : a/ Expliquez le principe d'une classification KMeans. (1.5 points). Exercice 2 (07 points) : Le tableau suivant contient des
Algorithme K-Moyennes Clustering ? K-means, Nearest Neighbor and Hierarchical. Exercise 1. K-means clustering. Use the k-means algorithm and Euclidean distance to cluster the
K-Means Avantages de l'algorithme : 1) L'algorithme de k-means est très populaire du fait qu'il est très facile à comprendre et à mettre en ?uvre. 2) Sa simplicité
Clustering de données extrait du datawarehouse et ciblé sur un sujet unique présentées à l 'utilisateur averti pour examen par Optimisation type K-Means, ISODATA.
Application de k-means - Dspace classification non supervisée dont le plus simple est l'algorithme de k-means. Corrige les données pour les différentes échelles et des corrélations dans les
TD Clustering_ensta TD Clustering. ENSTA ParisTech INT-22. Exercice 1 : K-means. Utilisez l'?algorithme du k-means et la distance euclidienne pour regrouper les 8 exemples?
Méthode des K-means - Université Lumière Lyon 2 Algorithme K-Means ? Méthode des centres mobiles. 3. Cas des variables actives qualitatives. 4. Fuzzy C-Means. 5. Classification de variables. 6. Conclusion.
Data-Mining Corrigé Examen 2002/2003 1 Clustering (13 points) Corrigé Examen 2002/2003. 4eme année. 1 Clustering (13 points). X 1 2 9 12 20. 1. (7 points) K-Means. (a) Appliquez l'algorithme des K-means avec les
Le cas D'H&M et ZARA Pré-requis. Aucun. Nombre d'exercices des situations de communication données ci-dessous. 3- Deux copines de 15 ans découvrent un nouveau magasin de vêtements qui vient d'ouvrir ses portes dans Une fois sorties du magasin, elles échangent ces
Modéliser des données, l'exemple du modèle entité - Réseau Certa Nokia, qui permet à notre société d'enrichir de plus en plus sa base de données nos produits dans une boutique virtuelle à la disposition de tout le monde, de faire conforme à l'éthique des données, idées des autres ou reproduction qui ne respecte