Canberra Distanz
Rechner zur Berechnung der gewichteten Canberra Distanz mit ausführlichen Formeln und Beispielen
Canberra Distanz Rechner
Was wird berechnet?
Die Canberra Distanz ist eine gewichtete Version der Manhattan-Distanz. Sie normalisiert jede Komponente durch die Summe der Beträge und ist besonders robust gegenüber Ausreißern.
Canberra Info
Eigenschaften
Canberra Distanz:
- Wertebereich: [0, n] (n = Anzahl Dimensionen)
- Gewichtete Manhattan-Distanz
- Normalisierung pro Komponente
- Robust gegen Ausreißer
Vorteil: Weniger empfindlich gegenüber großen Werten als die euklidische Distanz, da jede Komponente individuell normalisiert wird.
Spezielle Fälle
Wenn xi + yi = 0, wird die Komponente ignoriert
Werden durch Normalisierung gedämpft
Erhalten höheres Gewicht
Verwandte Distanzen
→ Manhattan Distanz
→ Bray-Curtis Distanz
→ Minkowski Distanz
Formeln der Canberra Distanz
Grundformel
Gewichtete Form
Normalisierte Form
Grenzfall (xi + yi ≠ 0)
Symmetrie
Wertebereich
Detailliertes Rechenbeispiel
Beispiel: Canberra([3,4,5], [2,3,6]) berechnen
Gegeben:
- x = [3, 4, 5]
- y = [2, 3, 6]
Schritt 1 - Komponente 1:
Schritt 2 - Komponente 2:
Schritt 3 - Komponente 3:
Schritt 4 - Gesamtsumme:
Interpretation: Jede Komponente wird individuell gewichtet basierend auf der Summe der Beträge.
Robustheit gegenüber Ausreißern
Beispiel: Vergleich mit und ohne Ausreißer
Normale Werte:
x = [1, 2, 3], y = [1, 3, 2]
Mit Ausreißer:
x = [1, 2, 100], y = [1, 3, 2]
Euklidische Distanz normal:
Euklidische Distanz mit Ausreißer:
Fazit: Die Canberra Distanz wird weniger stark von Ausreißern beeinflusst (Faktor 2.9 vs. Faktor 69.5 bei der euklidischen Distanz).
Praktische Anwendungen
Data Mining
- Ähnlichkeit von Datensätzen
- Clustering mit Ausreißern
- Anomalieerkennung
- Dimensionsreduktion
Informationsretrieval
- Dokumentenähnlichkeit
- Textanalyse
- Suchmaschinen-Ranking
- Empfehlungssysteme
Zeitreihenanalyse
- Vergleich von Zeitreihen
- Mustererkennug
- Trendanalyse
- Finanzmarktanalyse
Mathematische Eigenschaften
Metrische Eigenschaften
- Nicht-Negativität: d_C(x,y) ≥ 0
- Symmetrie: d_C(x,y) = d_C(y,x)
- Identität: d_C(x,x) = 0
- Dreiecksungleichung: Erfüllt nicht immer
Besondere Eigenschaften
- Gewichtung: Normalisierung pro Komponente
- Robustheit: Weniger empfindlich gegen Ausreißer
- Skalierung: Komponenten werden individuell skaliert
- Wertebereich: [0, n] für n Dimensionen
Wichtige Hinweise
Division durch Null: Wenn |xi| + |yi| = 0, wird die Komponente ignoriert oder als 0 behandelt
Interpretierbarkeit: Jede Komponente trägt maximal 1 zur Gesamtdistanz bei
Vergleich mit anderen Distanzmaßen
Für die Vektoren [1,2,10] und [2,1,1]
Canberra
Gewichtete Normalisierung
Euklidisch
Stark von Ausreißer beeinflusst
Manhattan
Summe der Beträge
Bray-Curtis
Globale Normalisierung
Beobachtung: Die Canberra Distanz dämpft den Einfluss der großen Komponente (10 vs 1) durch individuelle Normalisierung.