ReLU (Leaky) Funktion berechnen

Online Rechner und Formeln zur ReLU (Rectified Linear Unit) Aktivierungsfunktion - Die moderne Alternative zu Sigmoid

ReLU Funktion Rechner

Rectified Linear Unit (ReLU)

Die f(x) = max(0, x) oder Leaky-ReLU: f(x) = max(αx, x) ist eine der wichtigsten Aktivierungsfunktionen in Deep Learning.

Jede reelle Zahl (-∞ bis +∞)
Setzen Sie α > 0 für Leaky-ReLU (Standard: 0)
Resultat
f(x):
f'(x):

ReLU Kurve

ReLU Kurve

ReLU-Kurve: Null für negative Eingaben, linear für positive Werte.
Leaky-ReLU: Erlaubt kleine negative Steigung für besseres Training.

Was macht ReLU besonders?

Die ReLU-Funktion revolutionierte Deep Learning durch ihre Einfachheit und Effektivität:

  • Rechnerisch effizient: Nur ein Vergleich und keine Exponentialfunktion
  • Sparsame Aktivierung: Viele Neuronen können "aus" sein (f(x)=0)
  • Starke Gradienten: Keine Sättigung bei positiven Werten
  • Bessere Konvergenz: Training ist schneller und stabiler
  • Biologisch inspiriert: Ähnelt tatsächlicher Neuronenaktivierung
  • Variationen: Leaky-ReLU, ELU, GELU für spezielle Anwendungen

Formeln zur ReLU Funktion

Standard ReLU
\[f(x) = \max(0, x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases}\]

Einfachste und schnellste Aktivierungsfunktion

Leaky ReLU
\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}\]

Verhindert Probleme bei negativen Eingaben

ReLU Ableitung
\[f'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x < 0 \\ \text{undefined} & \text{if } x = 0 \end{cases}\]

Konstante Gradienten (kein Vanishing Gradient)

Leaky ReLU Ableitung
\[f'(x) = \begin{cases} 1 & \text{if } x > 0 \\ \alpha & \text{if } x \leq 0 \end{cases}\]

Kleine Steigung bei negativen Werten

Parametric ReLU (PReLU)
\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha_i x & \text{if } x \leq 0 \end{cases}\]

Lernbar: αᵢ wird während Training angepasst

ELU (Exponential Linear Unit)
\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}\]

Glatte Funktion mit besserer Stabilität

Eigenschaften

Spezielle Werte
f(0) = 0 f(x) ≥ 0 f(∞) = ∞
Definitionsbereich
x ∈ (-∞, +∞)

Alle reellen Zahlen

Wertebereich
\[f(x) \in [0, +\infty)\]

Unbegrenzt nach oben, 0 nach unten

Anwendung

Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Moderne Deep Learning Architekturen.

Ausführliche Beschreibung der ReLU Funktion

Mathematische Definition

Die ReLU (Rectified Linear Unit) Funktion ist eine der am häufigsten verwendeten Aktivierungsfunktionen in modernem Deep Learning. Sie ist einfach zu berechnen, numerisch stabil und führt zu besserer Konvergenz während des Trainings.

Definition: f(x) = max(0, x)
Verwendung des Rechners

Geben Sie eine beliebige reelle Zahl ein und optional einen Leaky-Parameter α. Der Rechner berechnet sowohl die Funktionswerte als auch die Ableitungen für die Backpropagation.

Historischer Hintergrund

ReLU wurde 2011 von Geoffrey Hinton popularisiert und führte zu einem Durchbruch in Deep Learning. Im Gegensatz zu Sigmoid und Tanh ermöglicht ReLU tiefere Netzwerke ohne Vanishing Gradient Probleme.

Eigenschaften und Variationen

Deep Learning Anwendungen
  • Convolutional Neural Networks (CNNs) für Bildverarbeitung
  • Recurrent Neural Networks (RNNs, LSTMs)
  • Transformer und Attention Mechanismen
  • Generative Adversarial Networks (GANs)
ReLU Variationen
  • Leaky ReLU: Ermöglicht kleine negative Werte
  • Parametric ReLU (PReLU): α wird trainiert
  • ELU (Exponential Linear Unit): Glatte Variante
  • GELU: Gaussian Error Linear Unit (in Transformers)
Mathematische Eigenschaften
  • Monotonie: Monoton steigend
  • Nicht-Linearität: Piecewise linear
  • Sparsität: Viele Ausgaben sind exakt 0
  • Gradient: 0 oder 1 (kein Vanishing)
Interessante Fakten
  • ReLU ermöglichte erfolgreiches Training von Netzwerken mit 8+ Hidden Layers
  • 50% der Aktivierungen sind typischerweise 0 (Sparsität)
  • Neuronale Netzwerke lernen schneller mit ReLU als mit Sigmoid
  • Dead ReLU Problem: Neuronen können "tot" sein und nicht mehr aktivieren

Berechnungsbeispiele

Beispiel 1: Standard ReLU

ReLU(0) = 0

ReLU(2) = 2

ReLU(-2) = 0

Beispiel 2: Leaky ReLU (α=0.1)

f(0) = 0

f(2) = 2

f(-2) = -0.2

Beispiel 3: Ableitungen

f'(2) = 1 (steiler Aufstieg)

f'(-2) = 0 (kein Gradient)

Leaky: f'(-2) = 0.1 (kleine Steigung)

Rolle in Neuronalen Netzen

Aktivierungsfunktion

In neuronalen Netzen transformiert die ReLU-Funktion die Summe der gewichteten Eingaben:

\[y = \max\left(0, \sum_{i} w_i x_i + b\right)\]

Dies ermöglicht nicht-lineare Entscheidungsgrenzen während Training und Inference.

Backpropagation

Die einfache Ableitung ermöglicht effizientes Gradient Descent:

\[\frac{\partial f}{\partial x} = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x < 0 \end{cases}\]

Keine Exponentialfunktion = schneller und stabiler!

Vorteile und Nachteile

Vorteile
  • Extrem schnell zu berechnen (nur ein Vergleich)
  • Kein Vanishing Gradient Problem bei tiefen Netzen
  • Führt zu sparsamen Aktivierungen
  • Biologisch realistisch
  • Einfach zu implementieren
Nachteile
  • Dead ReLU Problem (Neuronen können "tot" sein)
  • Unbegrenzte Ausgaben bei sehr großen Eingaben
  • Nicht differenzierbar bei x=0
  • Nicht-zentriert um 0
  • Erfordert Careful Weight Initialization


Weitere Spezial Funktionen

Airy    •   Abgeleitete Airy  •  Bessel I  •  Bessel Ie  •  Bessel J  •  Bessel Je  •  Bessel K  •  Bessel Ke  •  Bessel Y  •  Bessel Ye  •  Bessel Jv  •  Bessel Yv  •  Hankel  •  Fibonacci  •  Fibonacci Tabelle  •  Gamma Funktion  •  Inverse Gamma  •  Log Gamma  •  Digamma  •  Trigamma  •  Logit  •  Sigmoid  •  Derivative Sigmoid  •  Softsign  •  Derivative Softsign  •  Softmax  •  ReLU  •  Softplus  •  Swish  •  Struve  •  Modifizierte Struve  •  Struve Tabelle  •  Modifizierte Struve Tabelle  •  Riemann Zeta