Gepoolte Varianz berechnen

Online Rechner zur Berechnung der zusammengelegten Varianz zweier Datenreihen

Gepoolte Varianz Rechner

Die gepoolte Varianz

Die gepoolte Varianz (auch kombinierte Varianz) ist eine Methode zur Schätzung der Varianz verschiedener Populationen, wenn der Mittelwert unterschiedlich sein kann, aber die Varianz als gleich angenommen wird.

Daten eingeben
Datenreihen durch Leerzeichen oder Semikolon getrennt
Resultate
Gesamtmenge:
Stichprobe:
Eigenschaften der gepoolten Varianz

Verwendung: Schätzung der gemeinsamen Varianz zweier Populationen mit unterschiedlichen Mittelwerten

Gewichteter Durchschnitt Stichprobe & Gesamtmenge t-Test Voraussetzung

Gepoolte Varianz Konzept

Die gepoolte Varianz kombiniert die Varianzen zweier Stichproben.
Sie wird gewichtet nach den Stichprobengrößen berechnet.

Datenreihe X μₓ, Sₓ² n Datenreihe Y μᵧ, Sᵧ² m Sp²

Stichprobe X Stichprobe Y Gepoolte Varianz Sp²

Was ist die gepoolte Varianz?

Die gepoolte Varianz (auch kombinierte oder zusammengesetzte Varianz) ist ein wichtiges statistisches Konzept:

  • Definition: Gewichteter Durchschnitt der Varianzen zweier oder mehrerer Stichproben
  • Annahme: Die Populationsvarianzen sind gleich (Homoskedastizität)
  • Gewichtung: Nach den Freiheitsgraden (n-1) der einzelnen Stichproben
  • Anwendung: t-Test für unabhängige Stichproben, ANOVA
  • Voraussetzung: Beide Populationen haben gleiche Varianz
  • Vorteil: Bessere Schätzung durch Kombination der Informationen

Berechnung der gepoolten Varianz

Die Berechnung erfolgt in mehreren Schritten:

Schritte
  • 1. Berechne die Varianz für Datenreihe X: Sₓ²
  • 2. Berechne die Varianz für Datenreihe Y: Sᵧ²
  • 3. Gewichte jede Varianz mit (n-1) bzw. (m-1)
  • 4. Teile durch die Summe der Freiheitsgrade
Interpretation
  • Stichprobe: Verwendet n-1 und m-1 (Bessel-Korrektur)
  • Gesamtmenge: Verwendet n und m (ohne Korrektur)
  • Größere Werte: Höhere Streuung in den Daten
  • Verwendung: Standardfehler-Berechnung für t-Tests

Anwendungen der gepoolten Varianz

Die gepoolte Varianz findet in vielen statistischen Verfahren Anwendung:

Statistische Tests
  • t-Test für unabhängige Stichproben
  • Varianzanalyse (ANOVA)
  • Konfidenzintervalle für Differenzen
  • Statistische Prozesskontrolle
Praktische Anwendungen
  • Klinische Studien: Vergleich von Behandlungsgruppen
  • Qualitätskontrolle: Vergleich von Produktionschargen
  • A/B-Testing: Vergleich von Varianten
  • Marktforschung: Vergleich von Zielgruppen

Formeln zur gepoolten Varianz

Gepoolte Varianz (Stichprobe)
\[S_p^2=\frac{(n-1)S_x^2+(m-1)S_y^2}{n+m-2}\]

Verwendet für Stichproben mit Bessel-Korrektur (n-1, m-1)

Varianz einer Stichprobe
\[S^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\overline{x})^2\]

Stichprobenvarianz mit Bessel-Korrektur

Symbolerklärungen
\(S_p^2\) Gepoolte Varianz
\(S_x^2\) Varianz der Stichprobe X
\(S_y^2\) Varianz der Stichprobe Y
\(n\) Anzahl der Werte in X
\(m\) Anzahl der Werte in Y
\(\overline{x}\) Mittelwert der Stichprobe

Beispielrechnung für die gepoolte Varianz

Gegeben
X = {3,5,7,8} Y = {10,16,22,27}

Berechne: Gepoolte Varianz für die Stichproben X und Y

1. Mittelwerte berechnen
\[\overline{x} = \frac{3+5+7+8}{4} =5.75\] \[\overline{y} = \frac{10+16+22+27}{4} =18.75\]

Arithmetisches Mittel für beide Datenreihen

2. Varianz von X berechnen
\[S_x^2=\frac{1}{3}\cdot((3-5.75)^2+(5-5.75)^2\] \[+(7-5.75)^2+(8-5.75)^2)\] \[S_x^2=\frac{14.75}{3}=\color{blue}{4.9167}\]

Summe der quadrierten Abweichungen geteilt durch (n-1)

3. Varianz von Y berechnen
\[S_y^2=\frac{1}{3}\cdot((10-18.75)^2+(16-18.75)^2\] \[+(22-18.75)^2+(27-18.75)^2)\] \[S_y^2=\frac{162.75}{3}=\color{blue}{54.25}\]

Analog zur Berechnung für X

4. Gepoolte Varianz
\[S_p^2= \frac{(4-1)\cdot4.9167 +(4-1)\cdot54.25}{4+4-2}\] \[S_p^2= \frac{14.75 +162.75}{6} =\color{blue}{29.583}\]

Gewichteter Durchschnitt der beiden Varianzen

5. Vollständiges Ergebnis
Stichprobe Sp² =29.583
Gesamtmenge σp² =22.1875

Die gepoolte Varianz schätzt die gemeinsame Varianz der beiden Populationen

Mathematische Grundlagen der gepoolten Varianz

Die gepoolte Varianz ist ein fundamentales Konzept in der inferentiellen Statistik, das bei der Kombination von Informationen aus mehreren Stichproben verwendet wird.

Voraussetzungen und Annahmen

Für die korrekte Anwendung der gepoolten Varianz müssen bestimmte Bedingungen erfüllt sein:

  • Homoskedastizität: Die Populationsvarianzen σ₁² und σ₂² sind gleich
  • Unabhängigkeit: Die beiden Stichproben sind unabhängig voneinander
  • Normalverteilung: Idealerweise sind die Daten normalverteilt (für kleine Stichproben)
  • Zufallsstichproben: Die Daten wurden zufällig aus den Populationen gezogen
  • Intervallskalierung: Die Daten liegen auf Intervall- oder Verhältnisskala vor

Interpretation und Bedeutung

Die gepoolte Varianz hat eine wichtige statistische Interpretation:

Gewichtung

Größere Stichproben erhalten automatisch mehr Gewicht in der Berechnung, da sie präzisere Schätzungen der Populationsvarianz liefern.

Effizienz

Durch die Kombination der Informationen aus beiden Stichproben erhalten wir eine präzisere Schätzung der gemeinsamen Varianz als aus einzelnen Stichproben.

Freiheitsgrade

Die Summe n+m-2 im Nenner entspricht den kombinierten Freiheitsgraden beider Stichproben (n-1 für X, m-1 für Y).

Verwendung im t-Test

Die gepoolte Varianz ist essentiell für den t-Test bei unabhängigen Stichproben unter der Annahme gleicher Varianzen.

Stichprobe vs. Gesamtmenge

Der Rechner berechnet beide Varianten der gepoolten Varianz:

Stichprobenvarianz

Verwendet die Bessel-Korrektur (n-1, m-1) im Zähler und (n+m-2) im Nenner. Dies ist ein erwartungstreuer Schätzer für die Populationsvarianz und wird für inferentielle Statistik verwendet.

Gesamtmengenvarianz

Verwendet n und m ohne Korrektur. Dies beschreibt die Varianz in den vorliegenden Daten ohne Inferenz auf eine größere Population. Wird seltener verwendet.

Vor- und Nachteile

Vorteile
  • Präzision: Bessere Schätzung durch mehr Datenpunkte
  • Effizienz: Optimal bei gleichen Populationsvarianzen
  • Standardmethode: Weit verbreitet und etabliert
  • Mathematische Eleganz: Einfache, intuitive Formel
Einschränkungen
  • Annahme gleicher Varianzen: Kann zu Fehlern führen bei Heteroskedastizität
  • Sensitivität: Reagiert empfindlich auf Verletzungen der Voraussetzungen
  • Stichprobengröße: Bei sehr unterschiedlichen n, m kann Gewichtung problematisch sein
  • Alternative Methoden: Bei ungleichen Varianzen ist Welch-Test vorzuziehen
Zusammenfassung

Die gepoolte Varianz ist ein wichtiges Werkzeug in der vergleichenden Statistik, das eine präzise Schätzung der gemeinsamen Varianz zweier Populationen ermöglicht. Ihre korrekte Anwendung setzt jedoch die Erfüllung bestimmter Voraussetzungen voraus, insbesondere die Homoskedastizität. In der Praxis sollte die Annahme gleicher Varianzen mit geeigneten Tests (z.B. Levene-Test, F-Test) überprüft werden, bevor die gepoolte Varianz verwendet wird.