Softmax Funktion berechnen

Online Rechner zur Berechnung der Softmax Funktion - Wahrscheinlichkeitsverteilung für Klassifikation in neuronalen Netzen

Softmax Funktion Rechner

Softmax Wahrscheinlichkeitsverteilung

Die σ(z) oder Softmax-Funktion wandelt einen Vektor in eine Wahrscheinlichkeitsverteilung für Mehrklassen-Klassifikation um.

Wählen Sie die Anzahl der Klassen (1-10)
Vektor-Eingabe (Logits)
a₁:
a₂:
a₃:
a₄:
a₅:
a₆:
a₇:
a₈:
a₉:
a₁₀:

Eigenschaften

Wichtige Eigenschaften
Σ σᵢ = 1 σᵢ ∈ (0,1) max → 1
Eingabebereich
zᵢ ∈ (-∞, +∞)

Beliebige reelle Zahlen (Logits)

Ausgabebereich
\[\sigma(z)_i \in (0, 1)\]

Wahrscheinlichkeiten zwischen 0 und 1

Anwendung

Mehrklassen-Klassifikation, neuronale Netze, Wahrscheinlichkeitsverteilungen, NLP.

Warum ist Softmax perfekt für Wahrscheinlichkeiten?

Die Softmax-Funktion wandelt beliebige reelle Zahlen in gültige Wahrscheinlichkeiten um:

  • Normalisierung: Alle Ausgaben summieren sich zu 1
  • Positive Werte: Alle Wahrscheinlichkeiten > 0
  • Exponential-Gewichtung: Größere Eingaben erhalten höhere Wahrscheinlichkeiten
  • Differenzierbar: Perfekt für Gradient Descent
  • Temperatur-Parameter: Steuerung der "Schärfe" der Verteilung
  • Multi-Class: Ideal für Klassifikation mit mehreren Klassen

Formeln zur Softmax Funktion

Grundformel
\[\sigma(z)_j = \frac{e^{z_j}}{\sum_{i=1}^{K} e^{z_i}}\]

Standard Softmax für Klasse j

Mit Temperatur
\[\sigma(z)_j = \frac{e^{z_j/T}}{\sum_{i=1}^{K} e^{z_i/T}}\]

T steuert die "Schärfe" der Verteilung

Numerisch stabile Form
\[\sigma(z)_j = \frac{e^{z_j - \max(z)}}{\sum_{i=1}^{K} e^{z_i - \max(z)}}\]

Verhindert numerische Überläufe

Log-Softmax
\[\log \sigma(z)_j = z_j - \log\sum_{i=1}^{K} e^{z_i}\]

Für numerische Stabilität in Loss-Funktionen

Ableitung
\[\frac{\partial \sigma_j}{\partial z_i} = \sigma_j(\delta_{ij} - \sigma_i)\]

δᵢⱼ ist das Kronecker-Delta

Normalisierung
\[\sum_{j=1}^{K} \sigma(z)_j = 1\]

Summe aller Wahrscheinlichkeiten ist 1

Beispiel

Eingabe (Logits)
z = [1.0, 3.0, 2.0]
Ausgabe (Wahrscheinlichkeiten)
Klasse 1: 0.090
Klasse 2: 0.665
Klasse 3: 0.245

Summe: 1.000
Interpretation

Klasse 2 hat die höchste Wahrscheinlichkeit (66.5%) und würde als Vorhersage gewählt werden.

Ausführliche Beschreibung der Softmax Funktion

Mathematische Definition

Die Softmax-Funktion ist eine verallgemeinerte logistische Funktion, die einen K-dimensionalen Vektor reeller Zahlen in eine Wahrscheinlichkeitsverteilung mit K Klassen umwandelt. Sie ist fundamental für Mehrklassen-Klassifikation in neuronalen Netzen.

Definition: σ(z)ⱼ = e^(zⱼ) / Σᵢ e^(zᵢ)
Verwendung des Rechners

Wählen Sie die Anzahl der Klassen, geben Sie die Logit-Werte ein und klicken Sie auf 'Rechnen'. Die Ausgabe zeigt die entsprechenden Wahrscheinlichkeiten.

Historischer Hintergrund

Die Softmax-Funktion wurde in den 1990er Jahren als Verallgemeinerung der logistischen Funktion für Mehrklassen-Probleme entwickelt. Der Name "Softmax" bezieht sich auf die "weiche" Version der Max-Funktion.

Eigenschaften und Anwendungen

Machine Learning Anwendungen
  • Ausgabe-Layer in neuronalen Netzen (Klassifikation)
  • Attention-Mechanismen in Transformers
  • Natural Language Processing (NLP)
  • Computer Vision (Objekterkennung)
Mathematische Eigenschaften
  • Summiert zu 1: Σⱼ σ(z)ⱼ = 1
  • Positive Werte: σ(z)ⱼ > 0 für alle j
  • Monotonie: Größere zⱼ → größere σ(z)ⱼ
  • Differenzierbar überall
Praktische Vorteile
  • Interpretierbarkeit: Direkte Wahrscheinlichkeits-Interpretation
  • Gradients: Gut für Backpropagation geeignet
  • Stabilität: Mit numerischen Tricks sehr stabil
  • Flexibilität: Temperatur-Parameter für Anpassungen
Interessante Fakten
  • Softmax ist eine "weiche" Version von Argmax (daher der Name)
  • Bei hoher Temperatur werden Wahrscheinlichkeiten uniform
  • Bei niedriger Temperatur konzentriert sich die Masse auf das Maximum
  • Zentral für moderne Transformer-Architekturen (BERT, GPT)

Anwendungsbeispiele

Bildklassifikation

Eingabe: [2.1, 1.3, 3.5]

Ausgabe: [0.23, 0.10, 0.67]

→ Klasse 3 mit 67% Wahrscheinlichkeit

Sprachverarbeitung

Eingabe: [0.1, 4.2, 1.8]

Ausgabe: [0.02, 0.91, 0.07]

→ Wort 2 mit 91% Wahrscheinlichkeit

Gleichverteilung

Eingabe: [1.0, 1.0, 1.0]

Ausgabe: [0.33, 0.33, 0.33]

→ Alle Klassen gleich wahrscheinlich

Temperatur-Effekte

Niedrige Temperatur (T=0.5)

Eingabe: [1, 2, 3] → [0.02, 0.12, 0.86]

Effekt: Schärfere Verteilung, klare Entscheidungen

Standard Temperatur (T=1.0)

Eingabe: [1, 2, 3] → [0.09, 0.24, 0.67]

Effekt: Normale Softmax-Verteilung

Hohe Temperatur (T=2.0)

Eingabe: [1, 2, 3] → [0.21, 0.26, 0.53]

Effekt: Glattere Verteilung, weniger sicher

Implementierungs-Tipps

Best Practices
  • Verwenden Sie numerisch stabile Form (max subtrahieren)
  • Log-Softmax für Cross-Entropy Loss
  • Temperatur-Skalierung für Kalibrierung
  • Gradient Clipping bei sehr großen Logits
Häufige Probleme
  • Numerische Überläufe bei großen Logits
  • Unterläufe bei sehr negativen Werten
  • Verlust der Gradienten bei extremen Werten
  • Overfitting bei zu scharfen Verteilungen


Weitere Spezial Funktionen

Airy    •   Abgeleitete Airy  •  Bessel I  •  Bessel Ie  •  Bessel J  •  Bessel Je  •  Bessel K  •  Bessel Ke  •  Bessel Y  •  Bessel Ye  •  Bessel Jv  •  Bessel Yv  •  Hankel  •  Fibonacci  •  Fibonacci Tabelle  •  Gamma Funktion  •  Inverse Gamma  •  Log Gamma  •  Digamma  •  Trigamma  •  Logit  •  Sigmoid  •  Derivative Sigmoid  •  Softsign  •  Derivative Softsign  •  Softmax  •  Struve  •  Modifizierte Struve  •  Struve Tabelle  •  Modifizierte Struve Tabelle  •  Riemann Zeta