Softmax Funktion berechnen

Online Rechner zur Berechnung der Softmax Funktion - Wahrscheinlichkeitsverteilung für Klassifikation in neuronalen Netzen

Softmax Funktion Rechner

Softmax Wahrscheinlichkeitsverteilung

Die σ(z) oder Softmax-Funktion wandelt einen Vektor in eine Wahrscheinlichkeitsverteilung für Mehrklassen-Klassifikation um.

Anzahl der Vektoren

Wählen Sie die Anzahl der Klassen (1-10)

Dezimalstellen

Vektor-Eingabe (Logits)

a₁:

a₂:

a₃:

a₄:

a₅:

a₆:

a₇:

a₈:

a₉:

a₁₀:

Eigenschaften

Wichtige Eigenschaften

Σ σᵢ = 1 σᵢ ∈ (0,1) max → 1

Eingabebereich

zᵢ ∈ (-∞, +∞)

Beliebige reelle Zahlen (Logits)

Ausgabebereich

\[\sigma(z)_i \in (0, 1)\]

Wahrscheinlichkeiten zwischen 0 und 1

Anwendung

Mehrklassen-Klassifikation, neuronale Netze, Wahrscheinlichkeitsverteilungen, NLP.

Warum ist Softmax perfekt für Wahrscheinlichkeiten?

Die Softmax-Funktion wandelt beliebige reelle Zahlen in gültige Wahrscheinlichkeiten um:

Normalisierung: Alle Ausgaben summieren sich zu 1
Positive Werte: Alle Wahrscheinlichkeiten > 0
Exponential-Gewichtung: Größere Eingaben erhalten höhere Wahrscheinlichkeiten

Differenzierbar: Perfekt für Gradient Descent
Temperatur-Parameter: Steuerung der "Schärfe" der Verteilung
Multi-Class: Ideal für Klassifikation mit mehreren Klassen

Formeln zur Softmax Funktion

Grundformel

\[\sigma(z)_j = \frac{e^{z_j}}{\sum_{i=1}^{K} e^{z_i}}\]

Standard Softmax für Klasse j

Mit Temperatur

\[\sigma(z)_j = \frac{e^{z_j/T}}{\sum_{i=1}^{K} e^{z_i/T}}\]

T steuert die "Schärfe" der Verteilung

Numerisch stabile Form

\[\sigma(z)_j = \frac{e^{z_j - \max(z)}}{\sum_{i=1}^{K} e^{z_i - \max(z)}}\]

Verhindert numerische Überläufe

Log-Softmax

\[\log \sigma(z)_j = z_j - \log\sum_{i=1}^{K} e^{z_i}\]

Für numerische Stabilität in Loss-Funktionen

Ableitung

\[\frac{\partial \sigma_j}{\partial z_i} = \sigma_j(\delta_{ij} - \sigma_i)\]

δᵢⱼ ist das Kronecker-Delta

Normalisierung

\[\sum_{j=1}^{K} \sigma(z)_j = 1\]

Summe aller Wahrscheinlichkeiten ist 1

Beispiel

Eingabe (Logits)

z = [1.0, 3.0, 2.0]

Ausgabe (Wahrscheinlichkeiten)

Klasse 1: 0.090

Klasse 2: 0.665

Klasse 3: 0.245

Summe: 1.000

Interpretation

Klasse 2 hat die höchste Wahrscheinlichkeit (66.5%) und würde als Vorhersage gewählt werden.

Ausführliche Beschreibung der Softmax Funktion

Mathematische Definition

Die Softmax-Funktion ist eine verallgemeinerte logistische Funktion, die einen K-dimensionalen Vektor reeller Zahlen in eine Wahrscheinlichkeitsverteilung mit K Klassen umwandelt. Sie ist fundamental für Mehrklassen-Klassifikation in neuronalen Netzen.

Definition: σ(z)ⱼ = e^(zⱼ) / Σᵢ e^(zᵢ)

Verwendung des Rechners

Wählen Sie die Anzahl der Klassen, geben Sie die Logit-Werte ein und klicken Sie auf 'Rechnen'. Die Ausgabe zeigt die entsprechenden Wahrscheinlichkeiten.

Historischer Hintergrund

Die Softmax-Funktion wurde in den 1990er Jahren als Verallgemeinerung der logistischen Funktion für Mehrklassen-Probleme entwickelt. Der Name "Softmax" bezieht sich auf die "weiche" Version der Max-Funktion.

Eigenschaften und Anwendungen

Machine Learning Anwendungen

Ausgabe-Layer in neuronalen Netzen (Klassifikation)
Attention-Mechanismen in Transformers
Natural Language Processing (NLP)
Computer Vision (Objekterkennung)

Mathematische Eigenschaften

Summiert zu 1: Σⱼ σ(z)ⱼ = 1
Positive Werte: σ(z)ⱼ > 0 für alle j
Monotonie: Größere zⱼ → größere σ(z)ⱼ
Differenzierbar überall

Praktische Vorteile

Interpretierbarkeit: Direkte Wahrscheinlichkeits-Interpretation
Gradients: Gut für Backpropagation geeignet
Stabilität: Mit numerischen Tricks sehr stabil
Flexibilität: Temperatur-Parameter für Anpassungen

Interessante Fakten

Softmax ist eine "weiche" Version von Argmax (daher der Name)
Bei hoher Temperatur werden Wahrscheinlichkeiten uniform
Bei niedriger Temperatur konzentriert sich die Masse auf das Maximum
Zentral für moderne Transformer-Architekturen (BERT, GPT)

Anwendungsbeispiele

Bildklassifikation

Eingabe: [2.1, 1.3, 3.5]

Ausgabe: [0.23, 0.10, 0.67]

→ Klasse 3 mit 67% Wahrscheinlichkeit

Sprachverarbeitung

Eingabe: [0.1, 4.2, 1.8]

Ausgabe: [0.02, 0.91, 0.07]

→ Wort 2 mit 91% Wahrscheinlichkeit

Gleichverteilung

Eingabe: [1.0, 1.0, 1.0]

Ausgabe: [0.33, 0.33, 0.33]

→ Alle Klassen gleich wahrscheinlich

Temperatur-Effekte

Niedrige Temperatur (T=0.5)

Eingabe: [1, 2, 3] → [0.02, 0.12, 0.86]

Effekt: Schärfere Verteilung, klare Entscheidungen

Standard Temperatur (T=1.0)

Eingabe: [1, 2, 3] → [0.09, 0.24, 0.67]

Effekt: Normale Softmax-Verteilung

Hohe Temperatur (T=2.0)

Eingabe: [1, 2, 3] → [0.21, 0.26, 0.53]

Effekt: Glattere Verteilung, weniger sicher

Implementierungs-Tipps

Best Practices

Verwenden Sie numerisch stabile Form (max subtrahieren)
Log-Softmax für Cross-Entropy Loss
Temperatur-Skalierung für Kalibrierung
Gradient Clipping bei sehr großen Logits

Häufige Probleme

Numerische Überläufe bei großen Logits
Unterläufe bei sehr negativen Werten
Verlust der Gradienten bei extremen Werten
Overfitting bei zu scharfen Verteilungen

Ist diese Seite hilfreich?

Vielen Dank für Ihr Feedback!

Das tut uns leid
Wie können wir die Seite verbessern?

Weitere Spezial Funktionen

Airy • Abgeleitete Airy • Bessel I • Bessel Ie • Bessel J • Bessel Je • Bessel K • Bessel Ke • Bessel Y • Bessel Ye • Bessel Jv • Bessel Yv • Hankel • Fibonacci • Fibonacci Tabelle • Gamma Funktion • Inverse Gamma • Log Gamma • Digamma • Trigamma • Logit • Sigmoid • Derivative Sigmoid • Softsign • Derivative Softsign • Softmax • ReLU • Softplus • Swish • Struve • Modifizierte Struve • Struve Tabelle • Modifizierte Struve Tabelle • Riemann Zeta