ReLU (Leaky) Funktion berechnen

Online Rechner und Formeln zur ReLU (Rectified Linear Unit) Aktivierungsfunktion - Die moderne Alternative zu Sigmoid

ReLU Funktion Rechner

Rectified Linear Unit (ReLU)

Die f(x) = max(0, x) oder Leaky-ReLU: f(x) = max(αx, x) ist eine der wichtigsten Aktivierungsfunktionen in Deep Learning.

Argument x

Jede reelle Zahl (-∞ bis +∞)

Leaky Parameter α

Setzen Sie α > 0 für Leaky-ReLU (Standard: 0)

Dezimalstellen

Resultat

f(x):

f'(x):

ReLU Kurve

ReLU-Kurve: Null für negative Eingaben, linear für positive Werte.
Leaky-ReLU: Erlaubt kleine negative Steigung für besseres Training.

Was macht ReLU besonders?

Die ReLU-Funktion revolutionierte Deep Learning durch ihre Einfachheit und Effektivität:

Rechnerisch effizient: Nur ein Vergleich und keine Exponentialfunktion
Sparsame Aktivierung: Viele Neuronen können "aus" sein (f(x)=0)
Starke Gradienten: Keine Sättigung bei positiven Werten

Bessere Konvergenz: Training ist schneller und stabiler
Biologisch inspiriert: Ähnelt tatsächlicher Neuronenaktivierung
Variationen: Leaky-ReLU, ELU, GELU für spezielle Anwendungen

Formeln zur ReLU Funktion

Standard ReLU

\[f(x) = \max(0, x) = \begin{cases} x & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases}\]

Einfachste und schnellste Aktivierungsfunktion

Leaky ReLU

\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}\]

Verhindert Probleme bei negativen Eingaben

ReLU Ableitung

\[f'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x < 0 \\ \text{undefined} & \text{if } x = 0 \end{cases}\]

Konstante Gradienten (kein Vanishing Gradient)

Leaky ReLU Ableitung

\[f'(x) = \begin{cases} 1 & \text{if } x > 0 \\ \alpha & \text{if } x \leq 0 \end{cases}\]

Kleine Steigung bei negativen Werten

Parametric ReLU (PReLU)

\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha_i x & \text{if } x \leq 0 \end{cases}\]

Lernbar: αᵢ wird während Training angepasst

ELU (Exponential Linear Unit)

\[f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}\]

Glatte Funktion mit besserer Stabilität

Eigenschaften

Spezielle Werte

f(0) = 0 f(x) ≥ 0 f(∞) = ∞

Definitionsbereich

x ∈ (-∞, +∞)

Alle reellen Zahlen

Wertebereich

\[f(x) \in [0, +\infty)\]

Unbegrenzt nach oben, 0 nach unten

Anwendung

Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Moderne Deep Learning Architekturen.

Ausführliche Beschreibung der ReLU Funktion

Mathematische Definition

Die ReLU (Rectified Linear Unit) Funktion ist eine der am häufigsten verwendeten Aktivierungsfunktionen in modernem Deep Learning. Sie ist einfach zu berechnen, numerisch stabil und führt zu besserer Konvergenz während des Trainings.

Definition: f(x) = max(0, x)

Verwendung des Rechners

Geben Sie eine beliebige reelle Zahl ein und optional einen Leaky-Parameter α. Der Rechner berechnet sowohl die Funktionswerte als auch die Ableitungen für die Backpropagation.

Historischer Hintergrund

ReLU wurde 2011 von Geoffrey Hinton popularisiert und führte zu einem Durchbruch in Deep Learning. Im Gegensatz zu Sigmoid und Tanh ermöglicht ReLU tiefere Netzwerke ohne Vanishing Gradient Probleme.

Eigenschaften und Variationen

Deep Learning Anwendungen

Convolutional Neural Networks (CNNs) für Bildverarbeitung
Recurrent Neural Networks (RNNs, LSTMs)
Transformer und Attention Mechanismen
Generative Adversarial Networks (GANs)

ReLU Variationen

Leaky ReLU: Ermöglicht kleine negative Werte
Parametric ReLU (PReLU): α wird trainiert
ELU (Exponential Linear Unit): Glatte Variante
GELU: Gaussian Error Linear Unit (in Transformers)

Mathematische Eigenschaften

Monotonie: Monoton steigend
Nicht-Linearität: Piecewise linear
Sparsität: Viele Ausgaben sind exakt 0
Gradient: 0 oder 1 (kein Vanishing)

Interessante Fakten

ReLU ermöglichte erfolgreiches Training von Netzwerken mit 8+ Hidden Layers
50% der Aktivierungen sind typischerweise 0 (Sparsität)
Neuronale Netzwerke lernen schneller mit ReLU als mit Sigmoid
Dead ReLU Problem: Neuronen können "tot" sein und nicht mehr aktivieren

Berechnungsbeispiele

Beispiel 1: Standard ReLU

ReLU(0) = 0

ReLU(2) = 2

ReLU(-2) = 0

Beispiel 2: Leaky ReLU (α=0.1)

f(0) = 0

f(2) = 2

f(-2) = -0.2

Beispiel 3: Ableitungen

f'(2) = 1 (steiler Aufstieg)

f'(-2) = 0 (kein Gradient)

Leaky: f'(-2) = 0.1 (kleine Steigung)

Rolle in Neuronalen Netzen

Aktivierungsfunktion

In neuronalen Netzen transformiert die ReLU-Funktion die Summe der gewichteten Eingaben:

\[y = \max\left(0, \sum_{i} w_i x_i + b\right)\]

Dies ermöglicht nicht-lineare Entscheidungsgrenzen während Training und Inference.

Backpropagation

Die einfache Ableitung ermöglicht effizientes Gradient Descent:

\[\frac{\partial f}{\partial x} = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x < 0 \end{cases}\]

Keine Exponentialfunktion = schneller und stabiler!

Vorteile und Nachteile

Vorteile

Extrem schnell zu berechnen (nur ein Vergleich)
Kein Vanishing Gradient Problem bei tiefen Netzen
Führt zu sparsamen Aktivierungen
Biologisch realistisch
Einfach zu implementieren

Nachteile

Dead ReLU Problem (Neuronen können "tot" sein)
Unbegrenzte Ausgaben bei sehr großen Eingaben
Nicht differenzierbar bei x=0
Nicht-zentriert um 0
Erfordert Careful Weight Initialization

Weitere Spezial Funktionen

Airy • Abgeleitete Airy • Bessel I • Bessel Ie • Bessel J • Bessel Je • Bessel K • Bessel Ke • Bessel Y • Bessel Ye • Bessel Jv • Bessel Yv • Hankel • Fibonacci • Fibonacci Tabelle • Gamma Funktion • Inverse Gamma • Log Gamma • Digamma • Trigamma • Logit • Sigmoid • Derivative Sigmoid • Softsign • Derivative Softsign • Softmax • ReLU • Softplus • Swish • Struve • Modifizierte Struve • Struve Tabelle • Modifizierte Struve Tabelle • Riemann Zeta