Algorithme K-Moyennes

Clustering ? K-means, Nearest Neighbor and Hierarchical. Exercise 1. K-means clustering. Use the k-means algorithm and Euclidean distance to cluster the 

Part of the document

Algorithme K-Moyennes
Café Scientifique

1) L·MOJRULPOPH de k-means est très populaire du
fait qu·LO est très facile à comprendre et à mettre


2) Sa simplicité conceptuelle et sa rapidité
3) Applicable à des données de grandes tailles, et
aussi à tout type de données (mêmes textuelles),
en choisissant une bonne notion de distance.
1) Le nombre de classe doit être fixé au départ,
2) Le résultat dépend de tirage initial des centres
des classes,
3) Les clusters sont construits par rapports à des
objets inexistants (les milieux)
Algorithme (classique)

9 Choisir K éléments initiaux "centres" des K groupes 
9 Placer les objets dans le groupe de centre le plus proche 
9 Recalculer le centre de gravité de chaque groupe 
9 Itérer l'algorithme jusqu'à ce que les objets ne changent plus de






























8


Algorithme (classique)




But: assigner les éléments aux groupes























9


Algorithme (classique)




1: estimer des points K (aléatoirement)























10


Algorithme (classique)




2: Assigner les éléments à ces groupes


























11


Algorithme (classique)




3: Déplacer les points K vers les centres



























12


Algorithme (classique)




4: Réassigner les éléments et répéter jusqu·j VPMNLOLPp


























13


Algorithme (classique)




27-51-52-33-45-22-28-44-40-38-20-57
Maximum amplitude = 57 ² 20 = 37

20 22 27 28 33 38 40 44 45 51 52 57

27 0.19 0.14 0.00 0.03 0.16 0.30 0.35 0.46 0.49 0.65 0.68 0.81

51 0.84 0.78 0.65 0.62 0.49 0.35 0.30 0.19 0.16 0.00 0.03 0.16

52 0.86 0.81 0.68 0.65 0.51 0.38 0.32 0.22 0.19 0.03 0.00 0.14

Min 0.19 0.14 0.00 0.03 0.16 0.30 0.30 0.19 0.16 0.00 0.00 0.14

Aff 1 1 1 1 1 1 2 2 2 2 3 3

Cluster 1 : 20 - 22 - 27 - 28 - 33 - 38
Center : 168 / 6 = 28

14


Algorithme (classique)

Š Cluster 2 : 40 - 44 - 45 - 51 
Center : 180 / 4 = 45 Š Cluster 3 : 52 - 57 
Center : 109 / 2 = 54.5
20 22 27 28 33 38 40 44 45 51 52 57

28 0.22 0.16 0.03 0.00 0.14 0.27 0.32 0.43 0.46 0.62 0.65 0.78

45 0.68 0.62 0.49 0.46 0.32 0.19 0.14 0.03 0.00 0.16 0.19 0.32

54. 0.93 0.88 0.74 0.72 0.58 0.45 0.39 0.28 0.26 0.09 0.07 0.07
5

Mi 0.22 0.16 0.03 0.00 0.14 0.19 0.14 0.03 0.00 0.09 0.07 0.07
n

Aff 1 1 1 1 1 2 2 2 2 3 3 3


15


Algorithme (classique)







Š Cluster 1: 20 - 22 - 27 - 28 - 33 
Center = 130 / 5 = 26 Š Cluster 2: 38 - 40 - 44 - 45 
Centrer = 167 / 4 = 41.75 Š Cluster 3: 51 - 52 - 57 
Center = 160 / 3 = 53.33







16


Problèmes de l·MOJRULPOPH






Défauts de la méthode :


1) obligation de fixer K. 2) le résultat dépend fortement du choix des centres
initiaux. ne fournit pas nécessairement le résultat
optimum fournit un optimum local qui dépend
des centres initiaux.




17


Les alternatives






Il existe plusieurs versions de l·MOJRULPOPH N-
moyennes, parmi eux on peut citer :


1) Global k-means,
2) Initialisation par le mal classé,
3) L·MSSURŃOH LQŃUpPHQPMO RX Modified Fast
Global Kmeans),




18


Les alternatives














Global k-means :















19


Les alternatives

































20


Les alternatives




Initialisation par le mal classé :























21


Les alternatives

































22


Les alternatives














L·MSSURŃOH LQŃUpPHQPMO :















23


Hybridations







KMSVM : K-Means Support Vector Machine


9 Amélioration du temps de réponse
KMKNN : K-Means for K-Nearest Neighbors 
9 Accélération des recherches des plus proches voisins dans des espaces de grande dimension




24































25































26































27




Algorithme K-Moyennes












Café Scientifique






28