Empirische Verteilungsfunktion (CDF) berechnen

Online Rechner zur Berechnung der kumulativen Verteilungsfunktion einer Datenreihe

Verteilungsfunktion Rechner

Die Empirische Verteilungsfunktion

Die CDF (Cumulative Distribution Function) ist eine Wahrscheinlichkeitsfunktion, die angibt, welcher Anteil der Daten kleiner oder gleich einem bestimmten Wert ist.

Daten eingeben
Datenwerte (durch Leerzeichen oder Semikolon getrennt)
Schwellenwert für CDF-Berechnung
Resultat
Fn(t) =

Anteil der Daten ≤ Vergleichswert

Eigenschaften der CDF

Wichtig: Wert zwischen 0 und 1. F(t) = 0.6 bedeutet: 60% der Daten sind ≤ t.

Monoton steigend Wertebereich [0,1] Kumulative Funktion

CDF Visualisierung

Die CDF ist eine Treppenfunktion.
Jeder Datenwert erhöht F(t) um 1/n.

Empirische Verteilungsfunktion Wert (x) F(x) 0.0 0.25 0.5 0.75 1.0 t = 5 F(5) = 0.5

Empirische CDF Datenpunkte Vergleichswert


Was ist die Empirische Verteilungsfunktion (CDF)?

Die Empirische Verteilungsfunktion ist ein fundamentales Konzept der deskriptiven Statistik:

  • Definition: Anteil der Beobachtungen, die kleiner oder gleich einem Wert t sind
  • Bezeichnung: CDF (Cumulative Distribution Function), Fn(t)
  • Wertebereich: Zwischen 0 und 1 (oder 0% bis 100%)
  • Eigenschaft: Monoton steigend, rechtsseitig stetig
  • Anwendung: Quantilbestimmung, Verteilungsvergleich, Normalitätstests
  • Interpretation: F(t) = 0.6 → 60% der Werte sind ≤ t

Eigenschaften der CDF

Die empirische Verteilungsfunktion besitzt charakteristische mathematische Eigenschaften:

Monotonie

Monoton steigend: Wenn x₁ < x₂, dann F(x₁) ≤ F(x₂)
Die Funktion fällt niemals

Wertebereich

0 ≤ F(x) ≤ 1: Werte zwischen 0 und 1
F(-∞) = 0, F(+∞) = 1
Wahrscheinlichkeitsmaß

Treppenfunktion

Stückweise konstant: Sprünge bei Datenpunkten
Sprunghöhe = 1/n
Rechtsseitig stetig

Anwendungen der Empirischen Verteilungsfunktion

Die CDF wird in vielen Bereichen der Statistik verwendet:

Deskriptive Statistik
  • Quantile und Perzentile bestimmen (Median = F⁻¹(0.5))
  • Verteilungsform visualisieren
  • Datensätze vergleichen (ECDF-Plots)
  • Ausreißer identifizieren
Inferentielle Statistik
  • Kolmogorov-Smirnov-Test (Normalitätstest)
  • Anderson-Darling-Test
  • Goodness-of-Fit-Tests
  • Bootstrap-Verfahren

Formel der Empirischen Verteilungsfunktion

Empirische Verteilungsfunktion
\[F_n(t) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{1}_{x_i \leq t}\]

Anzahl der Werte ≤ t, dividiert durch Gesamtanzahl

Alternative Schreibweise
\[F_n(t) = \frac{\text{Anzahl}(x_i \leq t)}{n}\]

Relative Häufigkeit der Werte ≤ t

Eigenschaften

Monotonie: F(x₁) ≤ F(x₂) für x₁ < x₂

Grenzen: limx→-∞ F(x) = 0, limx→+∞ F(x) = 1

Sprünge: Sprunghöhe = 1/n bei jedem Datenpunkt

Beziehung zu Quantilen
\[Q_p = F_n^{-1}(p)\]

p-Quantil ist Umkehrfunktion der CDF bei p

Symbolerklärungen
\(F_n(t)\) Empirische Verteilungsfunktion
\(t\) Vergleichswert (Schwellenwert)
\(x_i\) Einzelner Datenwert
\(n\) Anzahl der Beobachtungen
\(\mathbb{1}\) Indikatorfunktion
\(Q_p\) p-Quantil

Beispielrechnungen für die CDF

Beispiel 1: Grundlegende CDF-Berechnung
Daten: 2, 5, 4, 8, 3, 7, 9, 3, 1, 6

Berechne: F(5) = Anteil der Werte ≤ 5

1. Daten sortieren
Unsortiert:
2, 5, 4, 8, 3, 7, 9, 3, 1, 6

Sortiert:
1, 2, 3, 3, 4, 5, 6, 7, 8, 9
2. Werte ≤ 5 zählen

1, 2, 3, 3, 4, 5

6 von 10 Werten sind ≤ 5

3. CDF berechnen
\[F_{10}(5) = \frac{6}{10}\] \[= \color{blue}{0.6}\]

= 60%

Beispiel 2: CDF für verschiedene Werte
Daten: 1, 2, 3, 3, 4, 5, 6, 7, 8, 9 (sortiert, n=10)

Berechne F(t) für verschiedene t-Werte

CDF-Tabelle
Vergleichswert (t) Anzahl ≤ t Fn(t) Prozent Interpretation
0 0 0.0 0% Kein Wert ≤ 0
2 2 0.2 20% 20% sind ≤ 2
5 6 0.6 60% 60% sind ≤ 5 (Beispiel 1)
7 8 0.8 80% 80% sind ≤ 7
10 10 1.0 100% Alle Werte ≤ 10
Wichtige Beobachtungen
  • Monotonie: F(t) steigt niemals (0.2 → 0.6 → 0.8 → 1.0)
  • Sprünge: Bei jedem Datenpunkt springt F um 1/10 = 0.1
  • Bei t=3: Zwei gleiche Werte → F springt um 2/10 = 0.2
  • Zwischen Datenpunkten: F bleibt konstant (z.B. F(3.5) = F(3) = 0.4)
Beispiel 3: Quantile aus der CDF bestimmen
Daten: 1, 2, 3, 3, 4, 5, 6, 7, 8, 9

Finde Median (50. Perzentil) und Quartile

Unteres Quartil (Q1)

Suche F(t) = 0.25

F(3) = 0.4 > 0.25

F(2) = 0.2 < 0.25

Q1 ≈ 2.75

Median (Q2)

Suche F(t) = 0.50

F(5) = 0.6 > 0.5

F(4) = 0.5 = 0.5 ✓

Q2 = 4.5

Oberes Quartil (Q3)

Suche F(t) = 0.75

F(7) = 0.8 > 0.75

F(6) = 0.7 < 0.75

Q3 ≈ 6.75

Interpretation

Die Umkehrfunktion F⁻¹ der CDF liefert Quantile:
Q1 = F⁻¹(0.25): 25% der Werte sind ≤ Q1
Median = F⁻¹(0.50): 50% der Werte sind ≤ Median
Q3 = F⁻¹(0.75): 75% der Werte sind ≤ Q3
Die CDF ist fundamental für Quantilberechnung und Perzentile!

Mathematische Grundlagen der CDF

Die Empirische Verteilungsfunktion ist ein nicht-parametrischer Schätzer der theoretischen Verteilungsfunktion und spielt eine zentrale Rolle in der Statistik.

Glivenko-Cantelli-Theorem

Theorem: Für große Stichproben konvergiert die empirische Verteilungsfunktion gleichmäßig gegen die wahre Verteilungsfunktion:

\[\sup_{t \in \mathbb{R}} |F_n(t) - F(t)| \xrightarrow{n \to \infty} 0\]

Bedeutung: Je mehr Daten, desto besser approximiert Fn die wahre Verteilung F. Dies rechtfertigt die Verwendung der ECDF als Schätzer.

Kolmogorov-Smirnov-Test

Der KS-Test vergleicht die ECDF mit einer theoretischen Verteilung:

\[D_n = \sup_{x} |F_n(x) - F_0(x)|\]

Anwendung: Normalitätstest, Goodness-of-Fit-Test, Vergleich zweier Stichproben. Testet, ob die beobachteten Daten aus einer bestimmten Verteilung stammen.

CDF vs. PDF

CDF (Kumulative)

Anteil ≤ Wert
Treppenfunktion
Monoton steigend
Bereich: [0, 1]

PDF (Dichte)

Relative Häufigkeit
Histogramm
Kann schwanken
Bereich: [0, ∞)

Praktische Hinweise

Vorteile der ECDF
  • Nicht-parametrisch: Keine Verteilungsannahmen nötig
  • Vollständig: Enthält alle Informationen der Stichprobe
  • Robust: Funktioniert bei allen Datentypen
  • Intuitiv: Direkte Interpretation als Anteil/Prozent
  • Konsistent: Konvergiert gegen wahre Verteilung
Anwendungsfälle
  • Explorative Datenanalyse: Verteilung visualisieren
  • Vergleiche: Zwei Gruppen vergleichen (ECDF-Plot)
  • Quantile: Perzentile und Quartile bestimmen
  • Modellprüfung: Passt theoretische Verteilung?
  • Konfidenzintervalle: Bootstrap-Verfahren
Zusammenfassung

Die Empirische Verteilungsfunktion ist ein fundamentales Werkzeug der Statistik. Sie ordnet jedem Wert t den Anteil der Beobachtungen zu, die kleiner oder gleich t sind. Als Treppenfunktion mit Sprüngen von 1/n bei jedem Datenpunkt ist sie monoton steigend und nimmt Werte zwischen 0 und 1 an. Die ECDF wird für Quantilberechnung, Verteilungsvergleiche, Normalitätstests (Kolmogorov-Smirnov) und explorative Datenanalyse verwendet. Das Glivenko-Cantelli-Theorem garantiert, dass Fn für große Stichproben die wahre Verteilung F approximiert. Im Gegensatz zur PDF (Dichtefunktion) ist die CDF kumulative und zeigt den "aufgelaufenen" Anteil der Daten. Sie ist robust, nicht-parametrisch und enthält die vollständige Information der Stichprobe.

Ist diese Seite hilfreich?            
Vielen Dank für Ihr Feedback!

Das tut uns leid

Wie können wir die Seite verbessern?