Pearson Korrelationskoeffizient

Rechner zur Berechnung des linearen Zusammenhangs mit ausführlichen Formeln und Beispielen

Korrelationskoeffizient Rechner

Was wird berechnet?

Der Pearson Korrelationskoeffizient misst die Stärke des linearen Zusammenhangs zwischen zwei Variablen. Werte zwischen -1 und +1 zeigen negative bis positive Korrelation an.

Eingabedaten

Datenpunkte durch Leerzeichen getrennt

Gleiche Anzahl Werte wie Variable X

Ergebnis
Pearson r:
Maß für den linearen Zusammenhang zwischen den Variablen

Korrelation Info

Eigenschaften

Pearson Korrelation:

  • Wertebereich: [-1, +1]
  • +1 = perfekte positive Korrelation
  • 0 = keine lineare Korrelation
  • -1 = perfekte negative Korrelation

Linear: Misst nur lineare Zusammenhänge, nicht gekrümmte oder andere nichtlineare Beziehungen.

Interpretation
|r| ≥ 0.7: Starke Korrelation
0.3 ≤ |r| < 0.7: Moderate Korrelation
0.1 ≤ |r| < 0.3: Schwache Korrelation
|r| < 0.1: Keine Korrelation
Verwandte Maße

→ Kosinus Ähnlichkeit
Spearman Rank: Für nichtlineare Zusammenhänge
Kendall Tau: Robust gegen Ausreißer

Formeln des Pearson Korrelationskoeffizienten

Grundformel
\[r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}\] Standard Pearson Korrelation
Kovarianz-Form
\[r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}\] Mit Kovarianz und Standardabweichungen
Computational Formula
\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{(n\sum x^2 - (\sum x)^2)(n\sum y^2 - (\sum y)^2)}}\] Numerisch stabile Berechnung
Z-Score Form
\[r = \frac{1}{n-1}\sum_{i=1}^n z_{x_i} z_{y_i}\] Mit standardisierten Werten
Bestimmtheitsmaß
\[R^2 = r^2\] Anteil erklärter Varianz
Fishers Z-Transformation
\[z = \frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)\] Für Signifikanztests

Detailliertes Rechenbeispiel

Beispiel: Korrelation([1,2,3,4,5], [2,4,6,8,10]) berechnen

Gegeben:

  • X = [1, 2, 3, 4, 5]
  • Y = [2, 4, 6, 8, 10]
  • n = 5

Schritt 1 - Mittelwerte:

\[\bar{x} = \frac{1+2+3+4+5}{5} = 3\] \[\bar{y} = \frac{2+4+6+8+10}{5} = 6\]

Schritt 2 - Abweichungen:

\[\sum(x_i - \bar{x})(y_i - \bar{y}) = 20\] \[\sum(x_i - \bar{x})^2 = 10\] \[\sum(y_i - \bar{y})^2 = 40\]

Schritt 3 - Korrelation:

\[r = \frac{20}{\sqrt{10 \cdot 40}} = \frac{20}{20} = 1.0\]

Interpretation: Perfekte positive Korrelation (r = 1.0), da Y = 2X für alle Datenpunkte.

Realistisches Beispiel

Beispiel: Temperatur vs. Eisverkauf

Daten:

Temperatur (°C): [20, 22, 25, 28, 30]
Eisverkauf (€): [150, 180, 220, 280, 320]

Berechnung:

\[\bar{x} = 25°C, \bar{y} = 230€\] \[r \approx 0.98\]

Interpretation:

Sehr starke positive Korrelation (r = 0.98)
R² = 0.96 → 96% der Varianz im Eisverkauf wird durch die Temperatur erklärt

Korrelation ≠ Kausalität

Wichtiger Hinweis: Correlation is not Causation

Beispiel - Scheinkorrelation:

Variable A: Anzahl Störche
Variable B: Geburtenrate
Korrelation: r = 0.62 (moderat positiv)

Erklärung:

Drittvariable: Ländliche vs. städtische Gebiete
Störche und höhere Geburtenraten kommen beide häufiger in ländlichen Gebieten vor.

Fazit: Eine hohe Korrelation bedeutet nicht automatisch, dass eine Variable die andere verursacht. Immer nach möglichen Drittvariablen oder alternativen Erklärungen suchen!

Praktische Anwendungen

Statistik & Forschung
  • Validierung von Hypothesen
  • Explorative Datenanalyse
  • Variablenselektion
  • Multikollinearität prüfen
Finanzwesen
  • Portfolio-Diversifikation
  • Asset-Korrelationen
  • Risikomanagement
  • Hedging-Strategien
Machine Learning
  • Feature Selection
  • Dimensionsreduktion
  • Preprocessing-Schritt
  • Modell-Evaluation

Mathematische Eigenschaften

Grundeigenschaften
  • Wertebereich: -1 ≤ r ≤ +1
  • Symmetrie: r(X,Y) = r(Y,X)
  • Lineare Transformation: Invariant unter affinen Transformationen
  • Dimensionslos: Unabhängig von Einheiten
Statistische Eigenschaften
  • Linearität: Nur lineare Zusammenhänge
  • Ausreißerempfindlich: Empfindlich gegenüber Extremwerten
  • Normalverteilung: Teststatistiken bei Normalverteilung
  • Effektgröße: Maß für praktische Bedeutsamkeit
Voraussetzungen

Datentyp: Mindestens intervallskalierte Daten

Verteilung: Für Tests: bivariate Normalverteilung

Interpretationsleitfaden

Korrelationsstärke nach Cohen (1988)

Positive Korrelationen:

r ≥ 0.7: Starke positive Korrelation
0.3 ≤ r < 0.7: Moderate positive Korrelation
0.1 ≤ r < 0.3: Schwache positive Korrelation

Negative Korrelationen:

r ≤ -0.7: Starke negative Korrelation
-0.7 < r ≤ -0.3: Moderate negative Korrelation
-0.3 < r ≤ -0.1: Schwache negative Korrelation
|r| < 0.1: Praktisch keine lineare Korrelation

Hinweis: Diese Einteilung ist kontextabhängig. In manchen Bereichen (z.B. Psychologie) gelten andere Standards.