Gepoolte Varianz

Formel, Herleitung und praktische Beispiele zur gepoolten Varianz zweier Stichproben

Die gepoolte Varianz (auch kombinierte oder zusammengelegte Varianz) ist eine Methode zur Schätzung der Varianz verschiedener Populationen, wenn die Mittelwerte jeder Population unterschiedlich sein können, aber man davon ausgeht, dass die Varianzen der Populationen gleich sind (Homoskedastizität).

Sie wird häufig in Hypothesentests wie dem t-Test für unabhängige Stichproben verwendet und bietet eine bessere Schätzung als die Verwendung der individuellen Stichprobenvarianzen.

Grundkonzept der gepoolten Varianz

Die gepoolte Varianz kombiniert die Informationen aus zwei (oder mehr) Stichproben zu einer einzigen Varianzschätzung. Dies ist besonders wertvoll, wenn:

  • Varianzhomogenität: Die Populationsvarianzen sind gleich
  • Kleine Stichprobengrößen: Die gepoolte Schätzung ist stabiler
  • Ungleiche Stichprobengrößen: Beide Stichproben können unterschiedliche Größen haben
  • Hypothesentests: Sie ist erforderlich für t-Tests und ähnliche Tests
Wichtige Voraussetzung: Überprüfen Sie die Varianzhomogenität (z. B. mit dem Levene-Test), bevor Sie die gepoolte Varianz verwenden!

Formeln der gepoolten Varianz

Hauptformel für zwei Stichproben

\(\displaystyle S_p^2 = \frac{(n-1)S_x^2 + (m-1)S_y^2}{n+m-2}\)

Bedeutung der Symbole:

  • \(S_p^2\): Gepoolte Varianz
  • \(S_x^2\): Varianz der ersten Stichprobe (x)
  • \(S_y^2\): Varianz der zweiten Stichprobe (y)
  • \(n\): Größe der ersten Stichprobe
  • \(m\): Größe der zweiten Stichprobe

Stichprobenvarianz (Grundformel)

Für eine einzelne Stichprobe mit Größe \(n\):

\(\displaystyle S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{x})^2\)

Alternative Darstellung der gepoolten Varianz

Direkt aus den Summen der Quadratische Abweichungen:

\(\displaystyle S_p^2 = \frac{\sum_{i=1}^{n}(x_i-\overline{x})^2 + \sum_{j=1}^{m}(y_j-\overline{y})^2}{n+m-2}\)

Herleitung und Konzept

Die gepoolte Varianz folgt dem Prinzip der gewichteten Durchschnittsbildung. Jede Stichprobenvarianz wird mit ihren Freiheitsgraden \((n-1)\) und \((m-1)\) gewichtet.

Warum Freiheitsgrade?

Die Freiheitsgrade berücksichtigen die "Information" in jeder Stichprobe. Eine größere Stichprobe mit mehr Freiheitsgraden trägt stärker zur Schätzung bei. Die Summe der Freiheitsgrade beträgt \(n+m-2\).

Praktisches Beispiel: Schritt-für-Schritt

Zwei Gruppen von Schülern werden getestet. Berechnen Sie die gepoolte Varianz ihrer Ergebnisse.

Schritt 1: Datensätze und erste Berechnungen

Daten erfassen
Gruppe X: 3, 5, 7, 8
Gruppe Y: 10, 16, 22, 27
Stichprobengrößen: \(n = 4\), \(m = 4\)

Schritt 2: Mittelwerte berechnen

Arithmetische Mittel
Mittelwert von X:
\(\displaystyle \overline{x} = \frac{3+5+7+8}{4} = 5.75\)
Mittelwert von Y:
\(\displaystyle \overline{y} = \frac{10+16+22+27}{4} = 18.75\)

Schritt 3: Stichprobenvarianzen berechnen

Varianzen \(S_x^2\) und \(S_y^2\)
Für Gruppe X:
\(\displaystyle S_x^2 = \frac{1}{4-1}[(3-5.75)^2+(5-5.75)^2 \) \(\displaystyle +(7-5.75)^2+(8-5.75)^2]\)
Vereinfacht:
\(\displaystyle S_x^2 = \frac{1}{3}[7.5625+0.5625+1.5625+5.0625]\) \(\displaystyle = \frac{14.75}{3} = \color{blue}{4.9167}\)
Für Gruppe Y:
\(\displaystyle S_y^2 = \frac{1}{3}[(10-18.75)^2+(16-18.75)^2 \) \(\displaystyle +(22-18.75)^2+(27-18.75)^2]\)
Vereinfacht:
\(\displaystyle S_y^2 = \frac{1}{3}[76.5625+7.5625+10.5625+68.0625]\) \(\displaystyle = \frac{162.75}{3} = \color{blue}{54.25}\)

Schritt 4: Gepoolte Varianz berechnen

Abschließende Berechnung
Formel anwenden:
\(\displaystyle S_p^2 = \frac{(4-1) \cdot 4.9167 + (4-1) \cdot 54.25}{4+4-2}\)
Zähler berechnen:
\(\displaystyle S_p^2 = \frac{3 \cdot 4.9167 + 3 \cdot 54.25}{6} = \frac{14.75 + 162.75}{6}\)
Endergebnis:
\(\displaystyle S_p^2 = \frac{177.5}{6} = \color{blue}{29.583}\)
Interpretation: Die gepoolte Varianzschätzung für beide Gruppen beträgt \(S_p^2 \approx 29.58\).

Anwendungen und Besonderheiten

  • t-Test für unabhängige Stichproben: Die gepoolte Varianz ist essenziell
  • ANOVA: Verallgemeinerung auf mehrere Gruppen
  • Konfidenzintervalle: Verwendung für präzisere Schätzungen
  • Normalverteilungsannahme: Setzt voraus, dass Daten normalverteilt sind
  • Varianzhomogenität: Ist eine kritische Annahme
Wichtige Warnung:

Wenn die Varianzen der Populationen deutlich unterschiedlich sind, sollten Sie stattdessen die Welch-Korrektur oder ein anderes robustes Verfahren verwenden. Überprüfen Sie vorher mit dem Levene-Test!

Tipps und häufige Fehler

Hilfreiche Tipps:
  • Freiheitsgrade merken: Nutzen Sie \((n-1)\) und \((m-1)\) als Gewichte
  • Formel richtig anwenden: Der Nenner ist \(n+m-2\), nicht \(n+m\
  • Voraussetzungen prüfen: Testen Sie auf Normalverteilung und Varianzhomogenität
  • Interpretation: Die gepoolte Varianz ist eine Schätzung der gemeinsamen Populationsvarianz
Häufige Fehler:
  • FALSCH: Nenner als \(n+m\) verwenden | RICHTIG: Nenner ist \(n+m-2\)
  • FALSCH: Freiheitsgrade nicht berücksichtigen | RICHTIG: Gewichten mit \(n-1\) und \(m-1\)
  • FALSCH: Varianzhomogenität ignorieren | RICHTIG: Vorher testen!
  • FALSCH: Mit ungleichen Stichprobengrößen dasselbe Gewicht verwenden | RICHTIG: Gewichte anpassen

Online-Rechner und Tools

Um die gepoolte Varianz schnell zu berechnen:



Arithmetisches Mittel (Durchschnitt)Five NumberMedianEmpirische VerteilungsfunktionGeometrisches MittelGepoolte StandardabweichungGepoolte VarianzHarmonisches MittelKontraharmonisches MittelKovarianz

Ist diese Seite hilfreich?            
Vielen Dank für Ihr Feedback!

Das tut uns leid

Wie können wir die Seite verbessern?