Gradientenabstiegsverfahren

Dabei wird versucht durch Annäherung möglichst nah ein ein Minimum zu gelangen, dafür wird die Fehlerfunktion möglichst weit Reduziert:

x_{n e u} = x_{a lt} - η * \nabla f (x_{a lt})

f(x) ist die Fehlerfunktion
x ist der Parameter (z. B. Gewicht im Neuron)
η ist die Lernrate

Wie viele Schritte wir gehen wird über den Hyperparameter Iterationen festgelegt.
→ zu klein gewählt kommen wir nicht nah genug an das Minimum
→ zu groß gewählt kann es sein das wir über das Minimum hinaus gehen oder Rechenleistung verschwenden

In der Praxis wird meist eine Abbruchbedingung eingebaut das z. B. wenn der Fehler kleiner als $1 0^{- 6}$ ist, ist der Fehler akzeptabel

Die Lernrate ( $η$ ) muss auch gut gewählt sein:

ist sie zu groß kann es sein das man wieder im Graphen Aufschwingt

Ist er zu klein gewählt kann es sein das man über ein Lokales Minima nicht hinaus kommt und somit nie das Globale Minima erreicht. Sattelpunkte sind für diese Algorithmen auch ein Problem. Auf Grund der abnehmenden Steigung kann es passieren das er mit einem Minima verwechselt wird.

Nicos Garden

Explorer

Gradientenabstiegsverfahren

Graph View

Backlinks