Gepoolte Varianz
Formel, Herleitung und praktische Beispiele zur gepoolten Varianz zweier Stichproben
Die gepoolte Varianz (auch kombinierte oder zusammengelegte Varianz) ist eine Methode zur Schätzung der Varianz verschiedener Populationen, wenn die Mittelwerte jeder Population unterschiedlich sein können, aber man davon ausgeht, dass die Varianzen der Populationen gleich sind (Homoskedastizität).
Sie wird häufig in Hypothesentests wie dem t-Test für unabhängige Stichproben verwendet und bietet eine bessere Schätzung als die Verwendung der individuellen Stichprobenvarianzen.
Grundkonzept der gepoolten Varianz
Die gepoolte Varianz kombiniert die Informationen aus zwei (oder mehr) Stichproben zu einer einzigen Varianzschätzung. Dies ist besonders wertvoll, wenn:
- Varianzhomogenität: Die Populationsvarianzen sind gleich
- Kleine Stichprobengrößen: Die gepoolte Schätzung ist stabiler
- Ungleiche Stichprobengrößen: Beide Stichproben können unterschiedliche Größen haben
- Hypothesentests: Sie ist erforderlich für t-Tests und ähnliche Tests
Formeln der gepoolten Varianz
Hauptformel für zwei Stichproben
Bedeutung der Symbole:
- \(S_p^2\): Gepoolte Varianz
- \(S_x^2\): Varianz der ersten Stichprobe (x)
- \(S_y^2\): Varianz der zweiten Stichprobe (y)
- \(n\): Größe der ersten Stichprobe
- \(m\): Größe der zweiten Stichprobe
Stichprobenvarianz (Grundformel)
Für eine einzelne Stichprobe mit Größe \(n\):
Alternative Darstellung der gepoolten Varianz
Direkt aus den Summen der Quadratische Abweichungen:
Herleitung und Konzept
Die gepoolte Varianz folgt dem Prinzip der gewichteten Durchschnittsbildung. Jede Stichprobenvarianz wird mit ihren Freiheitsgraden \((n-1)\) und \((m-1)\) gewichtet.
Warum Freiheitsgrade?
Die Freiheitsgrade berücksichtigen die "Information" in jeder Stichprobe. Eine größere Stichprobe mit mehr Freiheitsgraden trägt stärker zur Schätzung bei. Die Summe der Freiheitsgrade beträgt \(n+m-2\).
Praktisches Beispiel: Schritt-für-Schritt
Zwei Gruppen von Schülern werden getestet. Berechnen Sie die gepoolte Varianz ihrer Ergebnisse.
Schritt 1: Datensätze und erste Berechnungen
Daten erfassen
Schritt 2: Mittelwerte berechnen
Arithmetische Mittel
Schritt 3: Stichprobenvarianzen berechnen
Varianzen \(S_x^2\) und \(S_y^2\)
Schritt 4: Gepoolte Varianz berechnen
Abschließende Berechnung
Anwendungen und Besonderheiten
- t-Test für unabhängige Stichproben: Die gepoolte Varianz ist essenziell
- ANOVA: Verallgemeinerung auf mehrere Gruppen
- Konfidenzintervalle: Verwendung für präzisere Schätzungen
- Normalverteilungsannahme: Setzt voraus, dass Daten normalverteilt sind
- Varianzhomogenität: Ist eine kritische Annahme
Wenn die Varianzen der Populationen deutlich unterschiedlich sind, sollten Sie stattdessen die Welch-Korrektur oder ein anderes robustes Verfahren verwenden. Überprüfen Sie vorher mit dem Levene-Test!
Tipps und häufige Fehler
- Freiheitsgrade merken: Nutzen Sie \((n-1)\) und \((m-1)\) als Gewichte
- Formel richtig anwenden: Der Nenner ist \(n+m-2\), nicht \(n+m\
- Voraussetzungen prüfen: Testen Sie auf Normalverteilung und Varianzhomogenität
- Interpretation: Die gepoolte Varianz ist eine Schätzung der gemeinsamen Populationsvarianz
- FALSCH: Nenner als \(n+m\) verwenden | RICHTIG: Nenner ist \(n+m-2\)
- FALSCH: Freiheitsgrade nicht berücksichtigen | RICHTIG: Gewichten mit \(n-1\) und \(m-1\)
- FALSCH: Varianzhomogenität ignorieren | RICHTIG: Vorher testen!
- FALSCH: Mit ungleichen Stichprobengrößen dasselbe Gewicht verwenden | RICHTIG: Gewichte anpassen
Online-Rechner und Tools
Um die gepoolte Varianz schnell zu berechnen:
|
|