Clustering

Wenn die Y-Daten des Datasets fehlen (was in der Praxis oft der Fall ist) kann man diese Klassen mit einer der folgenden Methoden erhalten.

GMM vs k-means

	k-means	GMM
Zuordnung	feste Zuordnung (1 Punkt = 1 Cluster)	weiche/stochastische Zuordnung (1 Punkt = 1 Wahrscheinlichkeit pro Cluster)
Verwenden	- Cluster sind annähernd kugelförmig - Cluster sind ähnlich groß - Runde Gruppen mit gleicher Varianz - es wird eine schnelle, günstige und Skalierbare Methode für große Datensätze benötigt - es wird eine leicht interpretierbare Zentroide benötigt	- Cluster sind elliptisch - Cluster haben unterschiedliche Größe, Orientierung oder Kovarianz - Wenn weiche Zuordnung benötigt wird - Überlappende Cluster - Wahrscheinlichkeit von Außreiser berechnen - bedingte Clusterdichte berechnen - Log-Likelihooods berechnen