Der LM Head entscheidet am Ende des Prozesses welches Token aus den Ergebnissen verwendet wird. Dazu gibt es verschiedene Strategien.
Strategien von LM Heads
Classification Head: Für Text Klassifikation in Verbindung mit einer voll verknüpften Ausgangschicht eines Neuronalen Netzes und einer softmax Aktivierungsfunktion
Regression Head: Für Regressionsaufgaben zur Darstellung einer kontinuierlichen Zahl ohne Aktivierungsfunktion
Token Classification Head: Für die Kennzeichnung von Wortarten wird normalerweise ein Klassifikator auf Token-Ebene hinzugefügt, um jedem Token in der Eingabesequenz Bezeichnungen zuzuweisen.
Sequence-to-Sequence Head: Für Aufgaben wie Übersetzung oder Zusammenfassung kann ein Decoder-Mechanismus hinzugefügt werden, um eine Token-Sequenz als Ausgabe zu generieren.