Gepoolte Varianz berechnen
Online Rechner zur Berechnung der zusammengelegten Varianz zweier Datenreihen
Gepoolte Varianz Rechner
Die gepoolte Varianz
Die gepoolte Varianz (auch kombinierte Varianz) ist eine Methode zur Schätzung der Varianz verschiedener Populationen, wenn der Mittelwert unterschiedlich sein kann, aber die Varianz als gleich angenommen wird.
Gepoolte Varianz Konzept
Die gepoolte Varianz kombiniert die Varianzen zweier Stichproben.
Sie wird gewichtet nach den Stichprobengrößen berechnet.
● Stichprobe X ● Stichprobe Y ● Gepoolte Varianz Sp²
Was ist die gepoolte Varianz?
Die gepoolte Varianz (auch kombinierte oder zusammengesetzte Varianz) ist ein wichtiges statistisches Konzept:
- Definition: Gewichteter Durchschnitt der Varianzen zweier oder mehrerer Stichproben
- Annahme: Die Populationsvarianzen sind gleich (Homoskedastizität)
- Gewichtung: Nach den Freiheitsgraden (n-1) der einzelnen Stichproben
- Anwendung: t-Test für unabhängige Stichproben, ANOVA
- Voraussetzung: Beide Populationen haben gleiche Varianz
- Vorteil: Bessere Schätzung durch Kombination der Informationen
Berechnung der gepoolten Varianz
Die Berechnung erfolgt in mehreren Schritten:
Schritte
- 1. Berechne die Varianz für Datenreihe X: Sₓ²
- 2. Berechne die Varianz für Datenreihe Y: Sᵧ²
- 3. Gewichte jede Varianz mit (n-1) bzw. (m-1)
- 4. Teile durch die Summe der Freiheitsgrade
Interpretation
- Stichprobe: Verwendet n-1 und m-1 (Bessel-Korrektur)
- Gesamtmenge: Verwendet n und m (ohne Korrektur)
- Größere Werte: Höhere Streuung in den Daten
- Verwendung: Standardfehler-Berechnung für t-Tests
Anwendungen der gepoolten Varianz
Die gepoolte Varianz findet in vielen statistischen Verfahren Anwendung:
Statistische Tests
- t-Test für unabhängige Stichproben
- Varianzanalyse (ANOVA)
- Konfidenzintervalle für Differenzen
- Statistische Prozesskontrolle
Praktische Anwendungen
- Klinische Studien: Vergleich von Behandlungsgruppen
- Qualitätskontrolle: Vergleich von Produktionschargen
- A/B-Testing: Vergleich von Varianten
- Marktforschung: Vergleich von Zielgruppen
Formeln zur gepoolten Varianz
Gepoolte Varianz (Stichprobe)
Verwendet für Stichproben mit Bessel-Korrektur (n-1, m-1)
Varianz einer Stichprobe
Stichprobenvarianz mit Bessel-Korrektur
Symbolerklärungen
| \(S_p^2\) | Gepoolte Varianz |
| \(S_x^2\) | Varianz der Stichprobe X |
| \(S_y^2\) | Varianz der Stichprobe Y |
| \(n\) | Anzahl der Werte in X |
| \(m\) | Anzahl der Werte in Y |
| \(\overline{x}\) | Mittelwert der Stichprobe |
Beispielrechnung für die gepoolte Varianz
Gegeben
Berechne: Gepoolte Varianz für die Stichproben X und Y
1. Mittelwerte berechnen
Arithmetisches Mittel für beide Datenreihen
2. Varianz von X berechnen
Summe der quadrierten Abweichungen geteilt durch (n-1)
3. Varianz von Y berechnen
Analog zur Berechnung für X
4. Gepoolte Varianz
Gewichteter Durchschnitt der beiden Varianzen
5. Vollständiges Ergebnis
Die gepoolte Varianz schätzt die gemeinsame Varianz der beiden Populationen
Mathematische Grundlagen der gepoolten Varianz
Die gepoolte Varianz ist ein fundamentales Konzept in der inferentiellen Statistik, das bei der Kombination von Informationen aus mehreren Stichproben verwendet wird.
Voraussetzungen und Annahmen
Für die korrekte Anwendung der gepoolten Varianz müssen bestimmte Bedingungen erfüllt sein:
- Homoskedastizität: Die Populationsvarianzen σ₁² und σ₂² sind gleich
- Unabhängigkeit: Die beiden Stichproben sind unabhängig voneinander
- Normalverteilung: Idealerweise sind die Daten normalverteilt (für kleine Stichproben)
- Zufallsstichproben: Die Daten wurden zufällig aus den Populationen gezogen
- Intervallskalierung: Die Daten liegen auf Intervall- oder Verhältnisskala vor
Interpretation und Bedeutung
Die gepoolte Varianz hat eine wichtige statistische Interpretation:
Gewichtung
Größere Stichproben erhalten automatisch mehr Gewicht in der Berechnung, da sie präzisere Schätzungen der Populationsvarianz liefern.
Effizienz
Durch die Kombination der Informationen aus beiden Stichproben erhalten wir eine präzisere Schätzung der gemeinsamen Varianz als aus einzelnen Stichproben.
Freiheitsgrade
Die Summe n+m-2 im Nenner entspricht den kombinierten Freiheitsgraden beider Stichproben (n-1 für X, m-1 für Y).
Verwendung im t-Test
Die gepoolte Varianz ist essentiell für den t-Test bei unabhängigen Stichproben unter der Annahme gleicher Varianzen.
Stichprobe vs. Gesamtmenge
Der Rechner berechnet beide Varianten der gepoolten Varianz:
Stichprobenvarianz
Verwendet die Bessel-Korrektur (n-1, m-1) im Zähler und (n+m-2) im Nenner. Dies ist ein erwartungstreuer Schätzer für die Populationsvarianz und wird für inferentielle Statistik verwendet.
Gesamtmengenvarianz
Verwendet n und m ohne Korrektur. Dies beschreibt die Varianz in den vorliegenden Daten ohne Inferenz auf eine größere Population. Wird seltener verwendet.
Vor- und Nachteile
Vorteile
- Präzision: Bessere Schätzung durch mehr Datenpunkte
- Effizienz: Optimal bei gleichen Populationsvarianzen
- Standardmethode: Weit verbreitet und etabliert
- Mathematische Eleganz: Einfache, intuitive Formel
Einschränkungen
- Annahme gleicher Varianzen: Kann zu Fehlern führen bei Heteroskedastizität
- Sensitivität: Reagiert empfindlich auf Verletzungen der Voraussetzungen
- Stichprobengröße: Bei sehr unterschiedlichen n, m kann Gewichtung problematisch sein
- Alternative Methoden: Bei ungleichen Varianzen ist Welch-Test vorzuziehen
Zusammenfassung
Die gepoolte Varianz ist ein wichtiges Werkzeug in der vergleichenden Statistik, das eine präzise Schätzung der gemeinsamen Varianz zweier Populationen ermöglicht. Ihre korrekte Anwendung setzt jedoch die Erfüllung bestimmter Voraussetzungen voraus, insbesondere die Homoskedastizität. In der Praxis sollte die Annahme gleicher Varianzen mit geeigneten Tests (z.B. Levene-Test, F-Test) überprüft werden, bevor die gepoolte Varianz verwendet wird.
|
|