Empirische Verteilungsfunktion

Formeln, Herleitung und praktische Beispiele zur empirischen Verteilungsfunktion

Die empirische Verteilungsfunktion (auch Stichprobenverteilungsfunktion oder kumulative Häufigkeitsfunktion genannt) ist ein fundamentales Konzept der beschreibenden Statistik. Sie beschreibt, wie hoch der Anteil der Werte in einer Stichprobe ist, die kleiner oder gleich einem bestimmten Vergleichswert sind.

Das Ergebnis der empirischen Verteilungsfunktion liegt immer zwischen 0 (0%) und 1 (100%) einschließlich und gibt die relative Häufigkeit an — also den Anteil der Datenpunkte, die einen bestimmten Wert nicht überschreiten.

Die empirische Verteilungsfunktion ist eine einfache, aber mächtige Methode zur Visualisierung und Analyse der Datenverteilung und bildet die Grundlage für viele statistische Verfahren.

Grundkonzept der empirischen Verteilungsfunktion

Die empirische Verteilungsfunktion ordnet jedem Wert \(t\) die relative Häufigkeit zu, mit der Stichprobenwerte kleiner oder gleich \(t\) sind. Sie beantwortet die Frage: „Welcher Anteil meiner Daten ist höchstens gleich diesem Wert?"

  • Kumulativ: Summiert alle Häufigkeiten bis zu einem bestimmten Punkt
  • Monoton wachsend: Der Funktionswert nimmt nie ab
  • Treppenfunktion: Springt bei jedem Datenpunkt um die relative Häufigkeit
  • Bereich [0,1]: Gibt Anteile oder Wahrscheinlichkeiten an
  • Grenzen: \(F_n(-\infty) = 0\) und \(F_n(+\infty) = 1\)
Praktische Interpretation:

Wenn \(F_n(5) = 0.6\), bedeutet das: 60% der Daten in der Stichprobe sind kleiner oder gleich 5.

Formeln der empirischen Verteilungsfunktion

Definition der empirischen Verteilungsfunktion

Für einen Stichprobenwert \(t\) ist die empirische Verteilungsfunktion definiert als:

\(\displaystyle F_n(t) = \frac{\text{Anzahl der Elemente} \leq t}{n} = \frac{1}{n} \sum_{i=1}^{n} \mathbb{1}_{x_i \leq t}\)

Alternative Schreibweise mit Häufigkeiten

Wenn \(h_i\) die relative Häufigkeit des i-ten Wertes ist:

\(\displaystyle F_n(t) = \sum_{x_i \leq t} h_i\)

Bedeutung der Symbole

  • \(F_n(t)\): Empirische Verteilungsfunktion an der Stelle \(t\)
  • \(n\): Gesamtzahl der Stichprobenwerte
  • \(x_i\): Der i-te Stichprobenwert
  • \(t\): Der Vergleichswert (ein beliebiger reeller Wert)
  • \(\mathbb{1}_{x_i \leq t}\): Indikatorfunktion (1 wenn \(x_i \leq t\), sonst 0)
  • \(h_i\): Relative Häufigkeit

Verständnis und Herleitung

Die empirische Verteilungsfunktion folgt einem einfachen Konzept:

  1. Sortieren: Ordnen Sie die Daten aufsteigend
  2. Zählen: Zählen Sie, wie viele Werte ≤ \(t\) sind
  3. Teilen: Teilen Sie diese Anzahl durch die Gesamtzahl \(n\)
  4. Ergebnis: Das Ergebnis ist zwischen 0 und 1
Warum ist das nützlich?
  • Zeigt die Verteilung der Daten auf einen Blick
  • Ermöglicht Quantilberechnungen (Median, Quartile, etc.)
  • Hilft bei der Wahrscheinlichkeitsschätzung
  • Basis für Hypothesentests (Kolmogorov-Smirnov-Test)

Praktisches Beispiel: Schritt-für-Schritt

Berechnen Sie die empirische Verteilungsfunktion für die Datenmenge und bestimmen Sie \(F_n(5)\).

Schritt 1: Datensatz erfassen

Daten vorbereiten
Original Datensatz: 2, 5, 4, 8, 3, 7, 9, 3, 1, 6
Gesamtzahl der Werte: \(n = 10\)
Vergleichswert: \(t = 5\)

Schritt 2: Datensatz sortieren

Aufsteigende Sortierung
Sortierter Datensatz: 1, 2, 3, 3, 4, 5, 6, 7, 8, 9

Schritt 3: Werte zählen, die ≤ t sind

Werte kleiner oder gleich 5
Hervorgehobene Werte: 1, 2, 3, 3, 4, 5, 6, 7, 8, 9
Anzahl der Werte ≤ 5: 6 Werte

Schritt 4: Empirische Verteilungsfunktion berechnen

Division durch n
Formel anwenden:
\(\displaystyle F_n(5) = \frac{\text{Anzahl der Werte} \leq 5}{n}\)
Berechnung:
\(\displaystyle F_n(5) = \frac{6}{10} = 0.6 = \color{blue}{60\%}\)
Interpretation: \(F_n(5) = 0.6\) bedeutet: 60% der Datenpunkte sind kleiner oder gleich 5.

Vollständige Verteilungsfunktion für das Beispiel

Berechnen Sie \(F_n(t)\) für alle möglichen Werte in der Stichprobe:

Wert t Anzahl ≤ t Fn(t) = Anzahl/10 Prozent
1 1 0.1 10%
2 2 0.2 20%
3 4 0.4 40%
4 5 0.5 50%
5 6 0.6 60%
6 7 0.7 70%
7 8 0.8 80%
8 9 0.9 90%
9 10 1.0 100%

Eigenschaften der empirischen Verteilungsfunktion

  • Monoton wachsend: \(F_n(s) \leq F_n(t)\) für alle \(s \leq t\)
  • Grenzen: \(F_n(-\infty) = 0\) und \(F_n(+\infty) = 1\)
  • Rechtsseitig stetig: \(\lim_{t \to a^+} F_n(t) = F_n(a)\)
  • Treppenfunktion: Springt um \(1/n\) bei jedem eindeutigen Datenpunkt
  • Relative Häufigkeit: Gibt Anteile zwischen 0 und 1 an

Anwendungen der empirischen Verteilungsfunktion

  • Quantilberechnung: Bestimmung von Median, Quartilen, Perzentilen
  • Wahrscheinlichkeitsschätzung: Abschätzung von Wahrscheinlichkeiten
  • Goodness-of-Fit Tests: Kolmogorov-Smirnov-Test, Anderson-Darling-Test
  • Datenvisualisierung: Verstehen der Datenverteilung
  • Nichtparametrische Statistik: Basis für verteilungsfreie Verfahren
  • Bootstrap-Verfahren: Resampling aus der empirischen Verteilung
Wichtiger Hinweis:

Die empirische Verteilungsfunktion ist eine Schätzung der wahren (unbekannten) Verteilungsfunktion der Population. Mit größerem Stichprobenumfang verbessert sich diese Schätzung.

Tipps und häufige Fehler

Hilfreiche Tipps:
  • Sortieren nicht vergessen: Obwohl nicht immer nötig, macht es die Berechnung übersichtlicher
  • Inklusive Grenzen: Beachten Sie ≤ nicht <
  • Relative vs. Absolute Häufigkeit: Teilen Sie immer durch \(n\), nicht nur zählen
  • Grenzwerte prüfen: Kontrollieren Sie, dass \(F_n(-\infty) \approx 0\) und \(F_n(+\infty) = 1\)
  • Graphisch darstellen: Ein Plot hilft bei der Visualisierung
Häufige Fehler:
  • FALSCH: Verwendung von < statt ≤ | RICHTIG: Immer ≤ verwenden
  • FALSCH: Teilen durch \(n-1\) statt \(n\) | RICHTIG: Immer durch \(n\) teilen
  • FALSCH: Nicht sortierte Daten verwenden | RICHTIG: Für Übersichtlichkeit sortieren
  • FALSCH: Ergebnisse > 1 oder < 0 akzeptieren | RICHTIG: Immer [0,1] überprüfen
  • FALSCH: Verwechselung mit Wahrscheinlichkeitsdichte | RICHTIG: F_n gibt Anteile an

Online-Rechner und Tools

Um die empirische Verteilungsfunktion schnell zu berechnen:

Verwandte Themen in der Statistik

Weitere wichtige statistische Konzepte:



Arithmetisches Mittel (Durchschnitt)Five NumberMedianEmpirische VerteilungsfunktionGeometrisches MittelGepoolte StandardabweichungGepoolte VarianzHarmonisches MittelKontraharmonisches MittelKovarianz

Ist diese Seite hilfreich?            
Vielen Dank für Ihr Feedback!

Das tut uns leid

Wie können wir die Seite verbessern?