Gepoolte Varianz berechnen

Online Rechner zur Berechnung der zusammengelegten Varianz zweier Datenreihen

Gepoolte Varianz Rechner

Die gepoolte Varianz

Die gepoolte Varianz (auch kombinierte Varianz) ist eine Methode zur Schätzung der Varianz verschiedener Populationen, wenn der Mittelwert unterschiedlich sein kann, aber die Varianz als gleich angenommen wird.

Daten eingeben

Datenreihen durch Leerzeichen oder Semikolon getrennt

Dezimalstellen

Resultate

Gesamtmenge:

Stichprobe:

Eigenschaften der gepoolten Varianz

Verwendung: Schätzung der gemeinsamen Varianz zweier Populationen mit unterschiedlichen Mittelwerten

Gewichteter Durchschnitt Stichprobe & Gesamtmenge t-Test Voraussetzung

Gepoolte Varianz Konzept

Die gepoolte Varianz kombiniert die Varianzen zweier Stichproben.
Sie wird gewichtet nach den Stichprobengrößen berechnet.

● Stichprobe X ● Stichprobe Y ● Gepoolte Varianz Sp²

Was ist die gepoolte Varianz?

Die gepoolte Varianz (auch kombinierte oder zusammengesetzte Varianz) ist ein wichtiges statistisches Konzept:

Definition: Gewichteter Durchschnitt der Varianzen zweier oder mehrerer Stichproben
Annahme: Die Populationsvarianzen sind gleich (Homoskedastizität)
Gewichtung: Nach den Freiheitsgraden (n-1) der einzelnen Stichproben

Anwendung: t-Test für unabhängige Stichproben, ANOVA
Voraussetzung: Beide Populationen haben gleiche Varianz
Vorteil: Bessere Schätzung durch Kombination der Informationen

Berechnung der gepoolten Varianz

Die Berechnung erfolgt in mehreren Schritten:

Schritte

1. Berechne die Varianz für Datenreihe X: Sₓ²
2. Berechne die Varianz für Datenreihe Y: Sᵧ²
3. Gewichte jede Varianz mit (n-1) bzw. (m-1)
4. Teile durch die Summe der Freiheitsgrade

Interpretation

Stichprobe: Verwendet n-1 und m-1 (Bessel-Korrektur)
Gesamtmenge: Verwendet n und m (ohne Korrektur)
Größere Werte: Höhere Streuung in den Daten
Verwendung: Standardfehler-Berechnung für t-Tests

Anwendungen der gepoolten Varianz

Die gepoolte Varianz findet in vielen statistischen Verfahren Anwendung:

Statistische Tests

t-Test für unabhängige Stichproben
Varianzanalyse (ANOVA)
Konfidenzintervalle für Differenzen
Statistische Prozesskontrolle

Praktische Anwendungen

Klinische Studien: Vergleich von Behandlungsgruppen
Qualitätskontrolle: Vergleich von Produktionschargen
A/B-Testing: Vergleich von Varianten
Marktforschung: Vergleich von Zielgruppen

Formeln zur gepoolten Varianz

Gepoolte Varianz (Stichprobe)

\[S_p^2=\frac{(n-1)S_x^2+(m-1)S_y^2}{n+m-2}\]

Verwendet für Stichproben mit Bessel-Korrektur (n-1, m-1)

Varianz einer Stichprobe

\[S^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\overline{x})^2\]

Stichprobenvarianz mit Bessel-Korrektur

Symbolerklärungen

\(S_p^2\)	Gepoolte Varianz
\(S_x^2\)	Varianz der Stichprobe X
\(S_y^2\)	Varianz der Stichprobe Y

\(n\)	Anzahl der Werte in X
\(m\)	Anzahl der Werte in Y
\(\overline{x}\)	Mittelwert der Stichprobe

Beispielrechnung für die gepoolte Varianz

Gegeben

X = {3,5,7,8} Y = {10,16,22,27}

Berechne: Gepoolte Varianz für die Stichproben X und Y

1. Mittelwerte berechnen

\[\overline{x} = \frac{3+5+7+8}{4} =5.75\] \[\overline{y} = \frac{10+16+22+27}{4} =18.75\]

Arithmetisches Mittel für beide Datenreihen

2. Varianz von X berechnen

\[S_x^2=\frac{1}{3}\cdot((3-5.75)^2+(5-5.75)^2\] \[+(7-5.75)^2+(8-5.75)^2)\] \[S_x^2=\frac{14.75}{3}=\color{blue}{4.9167}\]

Summe der quadrierten Abweichungen geteilt durch (n-1)

3. Varianz von Y berechnen

\[S_y^2=\frac{1}{3}\cdot((10-18.75)^2+(16-18.75)^2\] \[+(22-18.75)^2+(27-18.75)^2)\] \[S_y^2=\frac{162.75}{3}=\color{blue}{54.25}\]

Analog zur Berechnung für X

4. Gepoolte Varianz

\[S_p^2= \frac{(4-1)\cdot4.9167 +(4-1)\cdot54.25}{4+4-2}\] \[S_p^2= \frac{14.75 +162.75}{6} =\color{blue}{29.583}\]

Gewichteter Durchschnitt der beiden Varianzen

5. Vollständiges Ergebnis

Stichprobe Sp² =29.583

Gesamtmenge σp² =22.1875

Die gepoolte Varianz schätzt die gemeinsame Varianz der beiden Populationen

Mathematische Grundlagen der gepoolten Varianz

Die gepoolte Varianz ist ein fundamentales Konzept in der inferentiellen Statistik, das bei der Kombination von Informationen aus mehreren Stichproben verwendet wird.

Voraussetzungen und Annahmen

Für die korrekte Anwendung der gepoolten Varianz müssen bestimmte Bedingungen erfüllt sein:

Homoskedastizität: Die Populationsvarianzen σ₁² und σ₂² sind gleich
Unabhängigkeit: Die beiden Stichproben sind unabhängig voneinander
Normalverteilung: Idealerweise sind die Daten normalverteilt (für kleine Stichproben)
Zufallsstichproben: Die Daten wurden zufällig aus den Populationen gezogen
Intervallskalierung: Die Daten liegen auf Intervall- oder Verhältnisskala vor

Interpretation und Bedeutung

Die gepoolte Varianz hat eine wichtige statistische Interpretation:

Gewichtung

Größere Stichproben erhalten automatisch mehr Gewicht in der Berechnung, da sie präzisere Schätzungen der Populationsvarianz liefern.

Effizienz

Durch die Kombination der Informationen aus beiden Stichproben erhalten wir eine präzisere Schätzung der gemeinsamen Varianz als aus einzelnen Stichproben.

Freiheitsgrade

Die Summe n+m-2 im Nenner entspricht den kombinierten Freiheitsgraden beider Stichproben (n-1 für X, m-1 für Y).

Verwendung im t-Test

Die gepoolte Varianz ist essentiell für den t-Test bei unabhängigen Stichproben unter der Annahme gleicher Varianzen.

Stichprobe vs. Gesamtmenge

Der Rechner berechnet beide Varianten der gepoolten Varianz:

Stichprobenvarianz

Verwendet die Bessel-Korrektur (n-1, m-1) im Zähler und (n+m-2) im Nenner. Dies ist ein erwartungstreuer Schätzer für die Populationsvarianz und wird für inferentielle Statistik verwendet.

Gesamtmengenvarianz

Verwendet n und m ohne Korrektur. Dies beschreibt die Varianz in den vorliegenden Daten ohne Inferenz auf eine größere Population. Wird seltener verwendet.

Vor- und Nachteile

Vorteile

Präzision: Bessere Schätzung durch mehr Datenpunkte
Effizienz: Optimal bei gleichen Populationsvarianzen
Standardmethode: Weit verbreitet und etabliert
Mathematische Eleganz: Einfache, intuitive Formel

Einschränkungen

Annahme gleicher Varianzen: Kann zu Fehlern führen bei Heteroskedastizität
Sensitivität: Reagiert empfindlich auf Verletzungen der Voraussetzungen
Stichprobengröße: Bei sehr unterschiedlichen n, m kann Gewichtung problematisch sein
Alternative Methoden: Bei ungleichen Varianzen ist Welch-Test vorzuziehen

Zusammenfassung

Die gepoolte Varianz ist ein wichtiges Werkzeug in der vergleichenden Statistik, das eine präzise Schätzung der gemeinsamen Varianz zweier Populationen ermöglicht. Ihre korrekte Anwendung setzt jedoch die Erfüllung bestimmter Voraussetzungen voraus, insbesondere die Homoskedastizität. In der Praxis sollte die Annahme gleicher Varianzen mit geeigneten Tests (z.B. Levene-Test, F-Test) überprüft werden, bevor die gepoolte Varianz verwendet wird.

Ist diese Seite hilfreich?

Vielen Dank für Ihr Feedback!

Das tut uns leid
Wie können wir die Seite verbessern?