Canberra Distanz

Rechner zur Berechnung der gewichteten Canberra Distanz mit ausführlichen Formeln und Beispielen

Canberra Distanz Rechner

Was wird berechnet?

Die Canberra Distanz ist eine gewichtete Version der Manhattan-Distanz. Sie normalisiert jede Komponente durch die Summe der Beträge und ist besonders robust gegenüber Ausreißern.

Eingabevektoren

Werte durch Leerzeichen getrennt

Gleiche Anzahl Werte wie Vektor X

Ergebnis
Canberra Distanz:
Gewichtete Distanz mit Normalisierung pro Komponente

Canberra Info

Eigenschaften

Canberra Distanz:

  • Wertebereich: [0, n] (n = Anzahl Dimensionen)
  • Gewichtete Manhattan-Distanz
  • Normalisierung pro Komponente
  • Robust gegen Ausreißer

Vorteil: Weniger empfindlich gegenüber großen Werten als die euklidische Distanz, da jede Komponente individuell normalisiert wird.

Spezielle Fälle
Null-Komponenten:
Wenn xi + yi = 0, wird die Komponente ignoriert
Große Unterschiede:
Werden durch Normalisierung gedämpft
Kleine Werte:
Erhalten höheres Gewicht


Formeln der Canberra Distanz

Grundformel
\[d_C(x,y) = \sum_{i=1}^n \frac{|x_i - y_i|}{|x_i| + |y_i|}\] Standard Canberra Distanz
Gewichtete Form
\[d_C(x,y) = \sum_{i=1}^n w_i \frac{|x_i - y_i|}{|x_i| + |y_i|}\] Mit Gewichten wi
Normalisierte Form
\[d_C(x,y) = \frac{1}{n} \sum_{i=1}^n \frac{|x_i - y_i|}{|x_i| + |y_i|}\] Durchschnittliche Distanz
Grenzfall (xi + yi ≠ 0)
\[\lim_{x_i, y_i \to 0} \frac{|x_i - y_i|}{|x_i| + |y_i|} = 0\] Für kleine Werte
Symmetrie
\[d_C(x,y) = d_C(y,x)\] Symmetrische Eigenschaft
Wertebereich
\[0 \leq d_C(x,y) \leq n\] n = Anzahl Dimensionen

Detailliertes Rechenbeispiel

Beispiel: Canberra([3,4,5], [2,3,6]) berechnen

Gegeben:

  • x = [3, 4, 5]
  • y = [2, 3, 6]

Schritt 1 - Komponente 1:

\[\frac{|3-2|}{|3|+|2|} = \frac{1}{5} = 0.2\]

Schritt 2 - Komponente 2:

\[\frac{|4-3|}{|4|+|3|} = \frac{1}{7} = 0.143\]

Schritt 3 - Komponente 3:

\[\frac{|5-6|}{|5|+|6|} = \frac{1}{11} = 0.091\]

Schritt 4 - Gesamtsumme:

\[d_C = 0.2 + 0.143 + 0.091 = 0.434\]

Interpretation: Jede Komponente wird individuell gewichtet basierend auf der Summe der Beträge.

Robustheit gegenüber Ausreißern

Beispiel: Vergleich mit und ohne Ausreißer

Normale Werte:

x = [1, 2, 3], y = [1, 3, 2]

\[d_C = \frac{0}{2} + \frac{1}{5} + \frac{1}{5} = 0.4\]

Mit Ausreißer:

x = [1, 2, 100], y = [1, 3, 2]

\[d_C = \frac{0}{2} + \frac{1}{5} + \frac{98}{102} ≈ 1.16\]

Euklidische Distanz normal:

\[\sqrt{0^2 + 1^2 + 1^2} = \sqrt{2} ≈ 1.41\]

Euklidische Distanz mit Ausreißer:

\[\sqrt{0^2 + 1^2 + 98^2} ≈ 98.01\]

Fazit: Die Canberra Distanz wird weniger stark von Ausreißern beeinflusst (Faktor 2.9 vs. Faktor 69.5 bei der euklidischen Distanz).

Praktische Anwendungen

Data Mining
  • Ähnlichkeit von Datensätzen
  • Clustering mit Ausreißern
  • Anomalieerkennung
  • Dimensionsreduktion
Informationsretrieval
  • Dokumentenähnlichkeit
  • Textanalyse
  • Suchmaschinen-Ranking
  • Empfehlungssysteme
Zeitreihenanalyse
  • Vergleich von Zeitreihen
  • Mustererkennug
  • Trendanalyse
  • Finanzmarktanalyse

Mathematische Eigenschaften

Metrische Eigenschaften
  • Nicht-Negativität: d_C(x,y) ≥ 0
  • Symmetrie: d_C(x,y) = d_C(y,x)
  • Identität: d_C(x,x) = 0
  • Dreiecksungleichung: Erfüllt nicht immer
Besondere Eigenschaften
  • Gewichtung: Normalisierung pro Komponente
  • Robustheit: Weniger empfindlich gegen Ausreißer
  • Skalierung: Komponenten werden individuell skaliert
  • Wertebereich: [0, n] für n Dimensionen
Wichtige Hinweise

Division durch Null: Wenn |xi| + |yi| = 0, wird die Komponente ignoriert oder als 0 behandelt

Interpretierbarkeit: Jede Komponente trägt maximal 1 zur Gesamtdistanz bei

Vergleich mit anderen Distanzmaßen

Für die Vektoren [1,2,10] und [2,1,1]
Canberra
1.491

Gewichtete Normalisierung

Euklidisch
9.055

Stark von Ausreißer beeinflusst

Manhattan
10.000

Summe der Beträge

Bray-Curtis
0.714

Globale Normalisierung

Beobachtung: Die Canberra Distanz dämpft den Einfluss der großen Komponente (10 vs 1) durch individuelle Normalisierung.