
Algorithme K-Moyennes
Clustering ? K-means, Nearest Neighbor and Hierarchical. Exercise 1. K-means clustering. Use the k-means algorithm and Euclidean distance to cluster the
Part of the document
Algorithme K-Moyennes
Café Scientifique
1) L·MOJRULPOPH de k-means est très populaire du
fait qu·LO est très facile à comprendre et à mettre
2) Sa simplicité conceptuelle et sa rapidité
3) Applicable à des données de grandes tailles, et
aussi à tout type de données (mêmes textuelles),
en choisissant une bonne notion de distance.
1) Le nombre de classe doit être fixé au départ,
2) Le résultat dépend de tirage initial des centres
des classes,
3) Les clusters sont construits par rapports à des
objets inexistants (les milieux)
Algorithme (classique)
9 Choisir K éléments initiaux "centres" des K groupes
9 Placer les objets dans le groupe de centre le plus proche
9 Recalculer le centre de gravité de chaque groupe
9 Itérer l'algorithme jusqu'à ce que les objets ne changent plus de
8
Algorithme (classique)
But: assigner les éléments aux groupes
9
Algorithme (classique)
1: estimer des points K (aléatoirement)
10
Algorithme (classique)
2: Assigner les éléments à ces groupes
11
Algorithme (classique)
3: Déplacer les points K vers les centres
12
Algorithme (classique)
4: Réassigner les éléments et répéter jusqu·j VPMNLOLPp
13
Algorithme (classique)
27-51-52-33-45-22-28-44-40-38-20-57
Maximum amplitude = 57 ² 20 = 37
20 22 27 28 33 38 40 44 45 51 52 57
27 0.19 0.14 0.00 0.03 0.16 0.30 0.35 0.46 0.49 0.65 0.68 0.81
51 0.84 0.78 0.65 0.62 0.49 0.35 0.30 0.19 0.16 0.00 0.03 0.16
52 0.86 0.81 0.68 0.65 0.51 0.38 0.32 0.22 0.19 0.03 0.00 0.14
Min 0.19 0.14 0.00 0.03 0.16 0.30 0.30 0.19 0.16 0.00 0.00 0.14
Aff 1 1 1 1 1 1 2 2 2 2 3 3
Cluster 1 : 20 - 22 - 27 - 28 - 33 - 38
Center : 168 / 6 = 28
14
Algorithme (classique)
Cluster 2 : 40 - 44 - 45 - 51
Center : 180 / 4 = 45 Cluster 3 : 52 - 57
Center : 109 / 2 = 54.5
20 22 27 28 33 38 40 44 45 51 52 57
28 0.22 0.16 0.03 0.00 0.14 0.27 0.32 0.43 0.46 0.62 0.65 0.78
45 0.68 0.62 0.49 0.46 0.32 0.19 0.14 0.03 0.00 0.16 0.19 0.32
54. 0.93 0.88 0.74 0.72 0.58 0.45 0.39 0.28 0.26 0.09 0.07 0.07
5
Mi 0.22 0.16 0.03 0.00 0.14 0.19 0.14 0.03 0.00 0.09 0.07 0.07
n
Aff 1 1 1 1 1 2 2 2 2 3 3 3
15
Algorithme (classique)
Cluster 1: 20 - 22 - 27 - 28 - 33
Center = 130 / 5 = 26 Cluster 2: 38 - 40 - 44 - 45
Centrer = 167 / 4 = 41.75 Cluster 3: 51 - 52 - 57
Center = 160 / 3 = 53.33
16
Problèmes de l·MOJRULPOPH
Défauts de la méthode :
1) obligation de fixer K. 2) le résultat dépend fortement du choix des centres
initiaux. ne fournit pas nécessairement le résultat
optimum fournit un optimum local qui dépend
des centres initiaux.
17
Les alternatives
Il existe plusieurs versions de l·MOJRULPOPH N-
moyennes, parmi eux on peut citer :
1) Global k-means,
2) Initialisation par le mal classé,
3) L·MSSURŃOH LQŃUpPHQPMO RX Modified Fast
Global Kmeans),
18
Les alternatives
Global k-means :
19
Les alternatives
20
Les alternatives
Initialisation par le mal classé :
21
Les alternatives
22
Les alternatives
L·MSSURŃOH LQŃUpPHQPMO :
23
Hybridations
KMSVM : K-Means Support Vector Machine
9 Amélioration du temps de réponse
KMKNN : K-Means for K-Nearest Neighbors
9 Accélération des recherches des plus proches voisins dans des espaces de grande dimension
24
25
26
27
Algorithme K-Moyennes
Café Scientifique
28