Empirische Verteilungsfunktion
Formeln, Herleitung und praktische Beispiele zur empirischen Verteilungsfunktion
Die empirische Verteilungsfunktion (auch Stichprobenverteilungsfunktion oder kumulative Häufigkeitsfunktion genannt) ist ein fundamentales Konzept der beschreibenden Statistik. Sie beschreibt, wie hoch der Anteil der Werte in einer Stichprobe ist, die kleiner oder gleich einem bestimmten Vergleichswert sind.
Das Ergebnis der empirischen Verteilungsfunktion liegt immer zwischen 0 (0%) und 1 (100%) einschließlich und gibt die relative Häufigkeit an — also den Anteil der Datenpunkte, die einen bestimmten Wert nicht überschreiten.
Die empirische Verteilungsfunktion ist eine einfache, aber mächtige Methode zur Visualisierung und Analyse der Datenverteilung und bildet die Grundlage für viele statistische Verfahren.
Grundkonzept der empirischen Verteilungsfunktion
Die empirische Verteilungsfunktion ordnet jedem Wert \(t\) die relative Häufigkeit zu, mit der Stichprobenwerte kleiner oder gleich \(t\) sind. Sie beantwortet die Frage: „Welcher Anteil meiner Daten ist höchstens gleich diesem Wert?"
- Kumulativ: Summiert alle Häufigkeiten bis zu einem bestimmten Punkt
- Monoton wachsend: Der Funktionswert nimmt nie ab
- Treppenfunktion: Springt bei jedem Datenpunkt um die relative Häufigkeit
- Bereich [0,1]: Gibt Anteile oder Wahrscheinlichkeiten an
- Grenzen: \(F_n(-\infty) = 0\) und \(F_n(+\infty) = 1\)
Wenn \(F_n(5) = 0.6\), bedeutet das: 60% der Daten in der Stichprobe sind kleiner oder gleich 5.
Formeln der empirischen Verteilungsfunktion
Definition der empirischen Verteilungsfunktion
Für einen Stichprobenwert \(t\) ist die empirische Verteilungsfunktion definiert als:
Alternative Schreibweise mit Häufigkeiten
Wenn \(h_i\) die relative Häufigkeit des i-ten Wertes ist:
Bedeutung der Symbole
- \(F_n(t)\): Empirische Verteilungsfunktion an der Stelle \(t\)
- \(n\): Gesamtzahl der Stichprobenwerte
- \(x_i\): Der i-te Stichprobenwert
- \(t\): Der Vergleichswert (ein beliebiger reeller Wert)
- \(\mathbb{1}_{x_i \leq t}\): Indikatorfunktion (1 wenn \(x_i \leq t\), sonst 0)
- \(h_i\): Relative Häufigkeit
Verständnis und Herleitung
Die empirische Verteilungsfunktion folgt einem einfachen Konzept:
- Sortieren: Ordnen Sie die Daten aufsteigend
- Zählen: Zählen Sie, wie viele Werte ≤ \(t\) sind
- Teilen: Teilen Sie diese Anzahl durch die Gesamtzahl \(n\)
- Ergebnis: Das Ergebnis ist zwischen 0 und 1
Warum ist das nützlich?
- Zeigt die Verteilung der Daten auf einen Blick
- Ermöglicht Quantilberechnungen (Median, Quartile, etc.)
- Hilft bei der Wahrscheinlichkeitsschätzung
- Basis für Hypothesentests (Kolmogorov-Smirnov-Test)
Praktisches Beispiel: Schritt-für-Schritt
Berechnen Sie die empirische Verteilungsfunktion für die Datenmenge und bestimmen Sie \(F_n(5)\).
Schritt 1: Datensatz erfassen
Daten vorbereiten
Schritt 2: Datensatz sortieren
Aufsteigende Sortierung
Schritt 3: Werte zählen, die ≤ t sind
Werte kleiner oder gleich 5
Schritt 4: Empirische Verteilungsfunktion berechnen
Division durch n
Vollständige Verteilungsfunktion für das Beispiel
Berechnen Sie \(F_n(t)\) für alle möglichen Werte in der Stichprobe:
| Wert t | Anzahl ≤ t | Fn(t) = Anzahl/10 | Prozent |
|---|---|---|---|
| 1 | 1 | 0.1 | 10% |
| 2 | 2 | 0.2 | 20% |
| 3 | 4 | 0.4 | 40% |
| 4 | 5 | 0.5 | 50% |
| 5 | 6 | 0.6 | 60% |
| 6 | 7 | 0.7 | 70% |
| 7 | 8 | 0.8 | 80% |
| 8 | 9 | 0.9 | 90% |
| 9 | 10 | 1.0 | 100% |
Eigenschaften der empirischen Verteilungsfunktion
- Monoton wachsend: \(F_n(s) \leq F_n(t)\) für alle \(s \leq t\)
- Grenzen: \(F_n(-\infty) = 0\) und \(F_n(+\infty) = 1\)
- Rechtsseitig stetig: \(\lim_{t \to a^+} F_n(t) = F_n(a)\)
- Treppenfunktion: Springt um \(1/n\) bei jedem eindeutigen Datenpunkt
- Relative Häufigkeit: Gibt Anteile zwischen 0 und 1 an
Anwendungen der empirischen Verteilungsfunktion
- Quantilberechnung: Bestimmung von Median, Quartilen, Perzentilen
- Wahrscheinlichkeitsschätzung: Abschätzung von Wahrscheinlichkeiten
- Goodness-of-Fit Tests: Kolmogorov-Smirnov-Test, Anderson-Darling-Test
- Datenvisualisierung: Verstehen der Datenverteilung
- Nichtparametrische Statistik: Basis für verteilungsfreie Verfahren
- Bootstrap-Verfahren: Resampling aus der empirischen Verteilung
Die empirische Verteilungsfunktion ist eine Schätzung der wahren (unbekannten) Verteilungsfunktion der Population. Mit größerem Stichprobenumfang verbessert sich diese Schätzung.
Tipps und häufige Fehler
- Sortieren nicht vergessen: Obwohl nicht immer nötig, macht es die Berechnung übersichtlicher
- Inklusive Grenzen: Beachten Sie ≤ nicht <
- Relative vs. Absolute Häufigkeit: Teilen Sie immer durch \(n\), nicht nur zählen
- Grenzwerte prüfen: Kontrollieren Sie, dass \(F_n(-\infty) \approx 0\) und \(F_n(+\infty) = 1\)
- Graphisch darstellen: Ein Plot hilft bei der Visualisierung
- FALSCH: Verwendung von < statt ≤ | RICHTIG: Immer ≤ verwenden
- FALSCH: Teilen durch \(n-1\) statt \(n\) | RICHTIG: Immer durch \(n\) teilen
- FALSCH: Nicht sortierte Daten verwenden | RICHTIG: Für Übersichtlichkeit sortieren
- FALSCH: Ergebnisse > 1 oder < 0 akzeptieren | RICHTIG: Immer [0,1] überprüfen
- FALSCH: Verwechselung mit Wahrscheinlichkeitsdichte | RICHTIG: F_n gibt Anteile an
Online-Rechner und Tools
Um die empirische Verteilungsfunktion schnell zu berechnen:
Verwandte Themen in der Statistik
Weitere wichtige statistische Konzepte:
|
|