Empirische Verteilungsfunktion (CDF) berechnen
Online Rechner zur Berechnung der kumulativen Verteilungsfunktion einer Datenreihe
Verteilungsfunktion Rechner
Die Empirische Verteilungsfunktion
Die CDF (Cumulative Distribution Function) ist eine Wahrscheinlichkeitsfunktion, die angibt, welcher Anteil der Daten kleiner oder gleich einem bestimmten Wert ist.
CDF Visualisierung
Die CDF ist eine Treppenfunktion.
Jeder Datenwert erhöht F(t) um 1/n.
━ Empirische CDF ● Datenpunkte ┋ Vergleichswert
|
|
Was ist die Empirische Verteilungsfunktion (CDF)?
Die Empirische Verteilungsfunktion ist ein fundamentales Konzept der deskriptiven Statistik:
- Definition: Anteil der Beobachtungen, die kleiner oder gleich einem Wert t sind
- Bezeichnung: CDF (Cumulative Distribution Function), Fn(t)
- Wertebereich: Zwischen 0 und 1 (oder 0% bis 100%)
- Eigenschaft: Monoton steigend, rechtsseitig stetig
- Anwendung: Quantilbestimmung, Verteilungsvergleich, Normalitätstests
- Interpretation: F(t) = 0.6 → 60% der Werte sind ≤ t
Eigenschaften der CDF
Die empirische Verteilungsfunktion besitzt charakteristische mathematische Eigenschaften:
Monotonie
Monoton steigend: Wenn x₁ < x₂, dann F(x₁) ≤ F(x₂)
Die Funktion fällt niemals
Wertebereich
0 ≤ F(x) ≤ 1: Werte zwischen 0 und 1
F(-∞) = 0, F(+∞) = 1
Wahrscheinlichkeitsmaß
Treppenfunktion
Stückweise konstant: Sprünge bei Datenpunkten
Sprunghöhe = 1/n
Rechtsseitig stetig
Anwendungen der Empirischen Verteilungsfunktion
Die CDF wird in vielen Bereichen der Statistik verwendet:
Deskriptive Statistik
- Quantile und Perzentile bestimmen (Median = F⁻¹(0.5))
- Verteilungsform visualisieren
- Datensätze vergleichen (ECDF-Plots)
- Ausreißer identifizieren
Inferentielle Statistik
- Kolmogorov-Smirnov-Test (Normalitätstest)
- Anderson-Darling-Test
- Goodness-of-Fit-Tests
- Bootstrap-Verfahren
Formel der Empirischen Verteilungsfunktion
Empirische Verteilungsfunktion
Anzahl der Werte ≤ t, dividiert durch Gesamtanzahl
Alternative Schreibweise
Relative Häufigkeit der Werte ≤ t
Eigenschaften
Monotonie: F(x₁) ≤ F(x₂) für x₁ < x₂
Grenzen: limx→-∞ F(x) = 0, limx→+∞ F(x) = 1
Sprünge: Sprunghöhe = 1/n bei jedem Datenpunkt
Beziehung zu Quantilen
p-Quantil ist Umkehrfunktion der CDF bei p
Symbolerklärungen
| \(F_n(t)\) | Empirische Verteilungsfunktion |
| \(t\) | Vergleichswert (Schwellenwert) |
| \(x_i\) | Einzelner Datenwert |
| \(n\) | Anzahl der Beobachtungen |
| \(\mathbb{1}\) | Indikatorfunktion |
| \(Q_p\) | p-Quantil |
Beispielrechnungen für die CDF
Beispiel 1: Grundlegende CDF-Berechnung
Berechne: F(5) = Anteil der Werte ≤ 5
1. Daten sortieren
2, 5, 4, 8, 3, 7, 9, 3, 1, 6
Sortiert:
1, 2, 3, 3, 4, 5, 6, 7, 8, 9
2. Werte ≤ 5 zählen
1, 2, 3, 3, 4, 5
6 von 10 Werten sind ≤ 5
3. CDF berechnen
= 60%
Beispiel 2: CDF für verschiedene Werte
Berechne F(t) für verschiedene t-Werte
CDF-Tabelle
| Vergleichswert (t) | Anzahl ≤ t | Fn(t) | Prozent | Interpretation |
|---|---|---|---|---|
| 0 | 0 | 0.0 | 0% | Kein Wert ≤ 0 |
| 2 | 2 | 0.2 | 20% | 20% sind ≤ 2 |
| 5 | 6 | 0.6 | 60% | 60% sind ≤ 5 (Beispiel 1) |
| 7 | 8 | 0.8 | 80% | 80% sind ≤ 7 |
| 10 | 10 | 1.0 | 100% | Alle Werte ≤ 10 |
Wichtige Beobachtungen
- Monotonie: F(t) steigt niemals (0.2 → 0.6 → 0.8 → 1.0)
- Sprünge: Bei jedem Datenpunkt springt F um 1/10 = 0.1
- Bei t=3: Zwei gleiche Werte → F springt um 2/10 = 0.2
- Zwischen Datenpunkten: F bleibt konstant (z.B. F(3.5) = F(3) = 0.4)
Beispiel 3: Quantile aus der CDF bestimmen
Finde Median (50. Perzentil) und Quartile
Unteres Quartil (Q1)
Suche F(t) = 0.25
F(3) = 0.4 > 0.25
F(2) = 0.2 < 0.25
Q1 ≈ 2.75
Median (Q2)
Suche F(t) = 0.50
F(5) = 0.6 > 0.5
F(4) = 0.5 = 0.5 ✓
Q2 = 4.5
Oberes Quartil (Q3)
Suche F(t) = 0.75
F(7) = 0.8 > 0.75
F(6) = 0.7 < 0.75
Q3 ≈ 6.75
Interpretation
Die Umkehrfunktion F⁻¹ der CDF liefert Quantile:
• Q1 = F⁻¹(0.25): 25% der Werte sind ≤ Q1
• Median = F⁻¹(0.50): 50% der Werte sind ≤ Median
• Q3 = F⁻¹(0.75): 75% der Werte sind ≤ Q3
Die CDF ist fundamental für Quantilberechnung und Perzentile!
Mathematische Grundlagen der CDF
Die Empirische Verteilungsfunktion ist ein nicht-parametrischer Schätzer der theoretischen Verteilungsfunktion und spielt eine zentrale Rolle in der Statistik.
Glivenko-Cantelli-Theorem
Theorem: Für große Stichproben konvergiert die empirische Verteilungsfunktion gleichmäßig gegen die wahre Verteilungsfunktion:
Bedeutung: Je mehr Daten, desto besser approximiert Fn die wahre Verteilung F. Dies rechtfertigt die Verwendung der ECDF als Schätzer.
Kolmogorov-Smirnov-Test
Der KS-Test vergleicht die ECDF mit einer theoretischen Verteilung:
Anwendung: Normalitätstest, Goodness-of-Fit-Test, Vergleich zweier Stichproben. Testet, ob die beobachteten Daten aus einer bestimmten Verteilung stammen.
CDF vs. PDF
CDF (Kumulative)
Anteil ≤ Wert
Treppenfunktion
Monoton steigend
Bereich: [0, 1]
PDF (Dichte)
Relative Häufigkeit
Histogramm
Kann schwanken
Bereich: [0, ∞)
Praktische Hinweise
Vorteile der ECDF
- Nicht-parametrisch: Keine Verteilungsannahmen nötig
- Vollständig: Enthält alle Informationen der Stichprobe
- Robust: Funktioniert bei allen Datentypen
- Intuitiv: Direkte Interpretation als Anteil/Prozent
- Konsistent: Konvergiert gegen wahre Verteilung
Anwendungsfälle
- Explorative Datenanalyse: Verteilung visualisieren
- Vergleiche: Zwei Gruppen vergleichen (ECDF-Plot)
- Quantile: Perzentile und Quartile bestimmen
- Modellprüfung: Passt theoretische Verteilung?
- Konfidenzintervalle: Bootstrap-Verfahren
Zusammenfassung
Die Empirische Verteilungsfunktion ist ein fundamentales Werkzeug der Statistik. Sie ordnet jedem Wert t den Anteil der Beobachtungen zu, die kleiner oder gleich t sind. Als Treppenfunktion mit Sprüngen von 1/n bei jedem Datenpunkt ist sie monoton steigend und nimmt Werte zwischen 0 und 1 an. Die ECDF wird für Quantilberechnung, Verteilungsvergleiche, Normalitätstests (Kolmogorov-Smirnov) und explorative Datenanalyse verwendet. Das Glivenko-Cantelli-Theorem garantiert, dass Fn für große Stichproben die wahre Verteilung F approximiert. Im Gegensatz zur PDF (Dichtefunktion) ist die CDF kumulative und zeigt den "aufgelaufenen" Anteil der Daten. Sie ist robust, nicht-parametrisch und enthält die vollständige Information der Stichprobe.
|
|
|
|