Sklearn ist eine Python Library

API Reference: https://scikit-learn.org/stable/api/index.html

Datasets


Zuerst muss ein Dataset geladen werden.

Clustering


Wenn das Dataset keine y Daten (Klassen) enthält, müssen diese zuerst mit einem Clustering Algorithmus ermittelt werden

Classifier


Dann kann ein Classifier damit trainiert werden. Die Variable in der der Classifier gespeichert wird, wird normalerweise clf genannt.

Bestimmung der Parameter

Um die besten Parameter für einen Classifier zu finden kann GridSearch oder RandomSearch verwendet werden. Random Search ist die praxistauglichere Methode, da deutlich weniger gerechnet werden muss und annähernd gute Ergebnisse wie bei Grid Search kommen.

Überprüfung der Daten


Um den Classifier zu testen, werden die Testdaten verwendet. Zum Testen können verschiedene Metriken verwendet werden.

Klassifizieren eines neuen Datenpunktes


Dies funktioniert bei allen mir bekannten Classifiern gleich:

y_pred = clf.predict(x_test)
print(f"y_pred:\n{y_pred}")

Speichern des Classifiers


Mit Pickle