Wenn die Y-Daten des Datasets fehlen (was in der Praxis oft der Fall ist) kann man diese Klassen mit einer der folgenden Methoden erhalten.
GMM vs k-means
| k-means | GMM | |
|---|---|---|
| Zuordnung | feste Zuordnung (1 Punkt = 1 Cluster) | weiche/stochastische Zuordnung (1 Punkt = 1 Wahrscheinlichkeit pro Cluster) |
| Verwenden | - Cluster sind annähernd kugelförmig - Cluster sind ähnlich groß - Runde Gruppen mit gleicher Varianz - es wird eine schnelle, günstige und Skalierbare Methode für große Datensätze benötigt - es wird eine leicht interpretierbare Zentroide benötigt | - Cluster sind elliptisch - Cluster haben unterschiedliche Größe, Orientierung oder Kovarianz - Wenn weiche Zuordnung benötigt wird - Überlappende Cluster - Wahrscheinlichkeit von Außreiser berechnen - bedingte Clusterdichte berechnen - Log-Likelihooods berechnen |