Regroupement (clustering)

9 Algorithme des centres mobiles (k means). 49. 10 Consolidation de 16 Exercices. 85 sj : l'écart-type corrigé des valeurs du caractère Xj,. ? le zobs,(j,g) :.

Part of the document

1Classification, Apprentissage,
Décision
Classification non-supervisée :Classification non-supervisée :
RegroupementRegroupement
(clustering)(clustering)

C'est quoi ?
Regroupement (Clustering): construire une
collection d'objets
Similaires au sein d'un même groupe
Dissimilaires quand ils appartiennent à des
groupes différents
Le Clustering est de la classification non
supervisée: pas de classes prédéfinies

3Qu'est ce qu'un bon regroupement ?
Une bonne méthode de regroupement permet de
garantir
Une grande similarité intra-groupe
Une faible similarité inter-groupe
La qualité d'un regroupement dépend donc de la
mesure de similarité utilisée par la méthode et
de son implémentation

4 Structures de données
Matrice de données
Matrice de similarité


5Mesurer la qualité d'un clustering
Métrique pour la similarité: La similarité est
exprimée par le biais d'une mesure de distance
Une autre fonction est utilisée pour la mesure de
la qualité
Les définitions de distance sont très différentes
selon que les domaines d'attributs sont des
intervalles (continues), catégories, booléens.
En pratique, on utilise souvent une pondération
des attributs

6Intervalle (discrètes) : pré-traitement
Standardiser les données
Calculer l'écart absolu moyen:
ou
Calculer la mesure standardisée (z-score)