Zurück...

Distanz und Ähnlichkeit

Über die Distanz bzw. Ähnlichkeit als Maßzahl wird die Ähnlichkeit zweier Objekte beschrieben. Diese Maßzahl wird auch als Proximitätszahl bezeichnet. Das Objekt selber wird durch qualitative (nominal) oder quantitative Merkmale festgelegt. Betrachten wir als Beispielobjekte mehrere Personen, die sich durch folgende Merkmale beschreiben lassen (Tabelle 1):

Objekt

Merkmale

 

Geschlecht
m / w

Alter

Größe
cm

Gewicht
kg

...

Person 1

m

35

180

82

...

Person 2

w

32

172

63

...

...

...

...

...

...

...

Person n

m

45

175

80

...

Tabelle 1

Über die Objektmerkmale wird das Proximitätsmaß ermittelt, um darüber eine Aussage bezüglich der Distanz oder Ähnlichkeit der Objekte machen zu können. Dabei gilt:

    • Distanz:
      Misst die Unähnlichkeit zwischen zwei Objekten. Je größer die Distanz ist, desto unähnlicher sind sich die Objekte.
       
    • Ähnlichkeit:
      Je ähnlicher sich zwei Objekte sind, desto größer ist das Ähnlichkeitsmaß.

Abhängig vom Skalenniveau der Merkmale, kommen unterschiedliche Proximitätsmaße zur Anwendung (Abb. 1):

L1-NormL2-NormGL1Simple-MatchingRogers-TanimotoJaccardSneath-SohalRussel-Rao

Abbildung 1

Proximitätsmaße für metrische Merkmale

Für metrische Merkmale berechnen wir die Distanz auf Basis des folgenden Beispiels (Tabelle 2):

Tabelle 2

Die Distanz dij zwischen zwei Objekten ist der kürzeste Abstand der zum Objekt gehörigen Merkmalausprägungen, dargestellt als Punkte in Abb. 2.

Der Abstand (Distanz di,j) zwischen den beiden Objekten i und j für das Merkmal A ist dann über den Satz des Pythagoras gegeben (F1):

F1

Die Punkte der Objekte lassen sich auch als Vektoren beschreiben:

Abbildung 2

Durch diesen gedanklichen Sprung, ist es möglich, diese Methodik auch auf Punkte im höherdimensionierten Raum zu übertragen:

Und somit kommen wir zur euklidischen Distanz (F2):

F2

Die euklidische Distanz wird auch L2-Norm genannt (siehe Abb. 1) und ist eine Variante der sogenannten Minkowski-Metrik (F3):

F3

In F3 stellt der Parameter r eine positive Konstante mit r >= 1 dar. Ist r = 1 kommt die L1-Norm (City-Block) zur Anwendung. Nimmt hingegen r = 2 an, kommt die L2-Norm, die euklidische Distanz, zum Einsatz.

Berechnen wir nun beispielhaft die Distanz dij für zwei Objekte aus Tabelle 2 über F2!

    Distanz von Objekt 1 zu Objekt 2 (d12) und von Objekt 2 zu Objekt 3 (d23):

Um die gesamte Distanz-Matrix zu berechnen, bemühen wir das freie Statistikprogramm R. Die Distanz-Matrix wird über die Funktion dist() berechnet. Die Matrix hat die Dimension m*m, wobei m der Objektanzahl entspricht. Für das Beispiel aus Tabelle 2 wird eine 5 * 5-Matrix erwartet (Abb. 3).

Abbildung 3

Abb. 3:
Das R-Objekt Daten beinhaltet das Beispiel aus Tabelle 2.

Die Funktion dist(Daten, diag=T) berechnet und gibt die Distanz-Matrix aus. Die Zeilen- und Spaltenüberschrift ist die Objektbezeichnung (Objekt 1 bis Objekt 5).

Die Objekte 3 und 5 (d53) sind sich am ähnlichsten, weil die Distanz zwischen diesen Objekten mit d53 = 9,49 am geringsten ist. Eine Ähnlichkeit zwischen dem 3. und 4. Objekt ist mit d43 = 10,49 ebenfalls nicht von der Hand zu weisen. Die Hauptdiagonale ist immer 0, da natürlich z. B. das Objekt 1 zu sich selbst eine 100 %ige Ähnlichkeit besitzt.

Die Merkmalausprägungen der Objekte unterliegt Streuungen. Dadurch kann die Distanz dij zwischen den Objekten durch die Merkmale dominiert werden, die eine entsprechend große Streuung besitzen. Dieser Umstand ist besonders zu berücksichtigen, wenn zwischen den Objektmerkmalen, wie in unserem Beispiel (Tabelle 2), deutliche Größenunterschiede bestehen. Um die Streuung zu berücksichtigen, werden die Merkmale skaliert. Wird die Distanz über die L2-Norm bestimmt, kann die Skalierung über die Standardabweichung s durchgeführt werden. Dazu wird F2 um die quadratische Standardabweichung s ergänzt (F3)...

F3

... und Tabelle 2 wird um die Standardabweichungen s erweitert (Tabelle 3):

Tabelle 3

Mit der Standardabweichung s der Objektmerkmale aus Tabelle 3 lässt sich nun über F3 die skalierte Distanz berechnen (Tabelle 4):

Objekt

1

2

3

4

5

1

0

 

 

 

 

2

3,79

0

 

 

 

3

2,53

2,42

0

 

 

4

2,55

1,27

1,52

0

 

5

3,68

2,09

1,23

1,86

0

Tabelle 4

Nach der Skalierung über die Standardabweichung wird die Ähnlichkeit zwischen den Objekten 3 und 5 bestätigt. Anstelle der Ähnlichkeit zwischen dem 3. und 4. Objekt der unskalierten Distanz, drängt sich nach der Skalierung eine hohe Ähnlichkeit zwischen dem 2. und 4. Objekt auf.

Neben dem oben dargelegten Einfluss der Merkmalvarianz müssen Sie sich bewusst sein, dass die Ähnlichkeit von der Methode abhängt! Abbildung 4 zeigt die Distanzmatrizen der Daten aus Tabelle 2 einmal nach der schon dargelegten euklidischen Methode (L2-Norm) und nach der Manhattan- Methode (L1-Norm). Der jeweils kleinste Distanzwert ist farblich markiert.

Abbildung 4

Proximitätsmaße für nominale Merkmale

Nominale Merkmale, die mehr als zwei Merkmalausprägungen aufweisen, werden zur Ermittlung der Ähnlichkeit in binäre Hilfsvariablen zerlegt. Diese binären Hilfsvariablen nehmen dann in Abhängigkeit der Merkmalausprägung den Wert 1, wenn die Eigenschaft vorliegt oder den Wert 0, wenn die Eigenschaft nicht vorliegt, an.
Im Hinblick auf unser Beispiel aus Tabelle 1, ist diese Methodik für das Merkmal Geschlecht trivial. Hier kann “1” für männlich und “0” für weiblich angenommen werden. Ist die Ausprägung des Geschlechts für beide Objekte “weiblich”, ist die Distanz 0 und im Falle der Ausprägung “männlich” ist die Distanz ebenfalls 0. Ist die Ausprägung des Merkmals beider Objekte unterschiedlich, z. B. Objekt 1 “männlich” und Objekt 2 “weiblich”, ist die Distanz 1.
Dabei ist zu berücksichtigen, dass bei großer Kategorieanzahl und deren deutlich unterschiedlich starker Besetzung es zu Verzerrungen für bestimmte Ähnlichkeitsmaße (RR- und M-Koeffizient) kommen kann.
In diesem Zusammenhang wird von symmetrischen und asymmetrischen Merkmalen gesprochen. Bei asymmetrischen Merkmalen sind sich zwei Objekte nicht notwendigerweise ähnlich, wenn beide Objekte das Merkmal nicht besitzen. Von symmetrischen Merkmalen wird angenommen, dass zwei Objekte sich bezüglich ihrer Merkmale ähnlich sind, wenn beide eine Eigenschaft nicht besitzen.

Im binären Merkmalvergleich zweier Objekte, lassen sich beim Vergleich folgende Fälle unterscheiden:

    • Für beide Objekte ist die gleiche Merkmalausprägung (Eigenschaft) vorhanden -> Eintrag ins a-Feld der Tabelle 5.
    • Nur Objekt 2 zeigt die Eigenschaft -> Eintrag ins b-Feld.
    • Nur Objekt 1 zeigt die Eigenschaft -> Eintrag ins c-Feld.
    • Keines der beiden Objekte zeigt die Eigenschaft -> Eintrag ins d-Feld der Tabelle 5.
       
      • Erinnerung: Berücksichtigen Sie bei der Fallunterscheidung die Symmetrie! Gehen Sie von symmetrischen Merkmalen aus, bedeutet das Nichtvorhandensein einer Merkmaleigenschaft einen Eintrag ins a-Feld!

 

Objekt 2

 

vorhanden

nicht vorhanden

Zeilensumme

Objekt 1

vorhanden

a

c

a + c

nicht vorhanden

b

d

b + d

Spaltensumme

a + b

c + d

m

Tabelle 5

Die Felder der Tabelle 5 beinhalten nach dem Vergleich die Anzahl der Fallentscheidungen. Über Tabelle 5 können nun die Ähnlichkeitsmaße, z. B. der GL1 sij-Koeffizient (Gower und Legendre) nach F4 berechnet werden:

F4

Der Parameter muss > 0 sein. Über den Parameter wird gesteuert, ob die Übereinstimmung a + d oder die Nichtübereinstimmung b + c stärker gewichtet wird. Das Distanzmaß GL1 dij wird nach F5 erhalten:

F5

Nimmt der Parameter den Wert 1 an, wird der Simple-Matching-Koeffizient SM sij (oder auch M-Koeffizient gennannt) nach F6 berechnet ...

F6

... und das Distanzmaß SM dij nach F7:

F7

Beispiel für den Simple-Matching-Koeffizient SM sij:

Objekt

Merkmal A

Merkmal B

Merkmal C

Merkmal D

1

1

0

1

0

2

1

1

0

0

Tabelle 6, binäre Beispielmatrix

Die Tabellen 7 und 8 zeigen die Fallunterscheidungen nach Tabelle 5 für die Tabelle 6. In Tabelle 7 bedeutet “Symmetrieannahme” dass das Vorhandensein gleicher Eigenschaften für Merkmal A und das Nichtvorhandensein gleicher Eigenschaft für Merkmal D jeweils zu einem Eintrag ins a-Feld, also 1 + 1, führt.

Fallunterscheidung unter Symmetrieannahme der Tabelle 6:

a = 2

c = 1

b = 1

d = 0

Tabelle 7

Fallunterscheidung unter Asymmetrieannahme der Tabelle 6:

a = 1

c = 1

b = 1

d = 1

Tabelle 8

Der Simple-Matching-Koeffizient SM sij nach F6 nimmt für Tabelle 7 folgendes Ähnlichkeitsmaß an (F8) ...

F8

... und für Tabelle 8 nimmt der Koeffizient folgenden Wert (F9) an:

F9

Nimmt der Parameter in F4 den Wert 2 an, wird die Ähnlichkeit über den Koeffizient nach Rogers/Tanimoto RT sij bestimmt (F10):

F10

Die dazugehörige Distanz RT dij wird über F11 berechnet:

F11

Eine Variante des GL1-Koeffizienten ist der GL2-Koeffizient nach F12 ...

F12

... mit > 0. Das Distanzmaß GL2 dij entspricht dann F13:

F13

Den Jaccard-Koeffizienten als Ähnlichkeitsmaß erhalten wir, wenn in F12 der Parameter = 1 setzen (F14) ...

F14

... und die dazugehörige Distanz JA dij nach F15:

F15

Wird in F12 der Parameter = 2 gesetzt, wird das Ähnlichkeitsmaß nach Sneath/Sohal berechnet (F16) ...

F16

... und die Distanz SS dij nach F17:

F17

Die sicher nicht vollständige Aufzählung wird mit dem Russel-Rao-Koeffizienten, der über F18 bestimmt wird, abgeschlossen:

F18

Die oben erwähnte R-Funktion dist() berechnet für die in Abb. 5 dargestellte binäre Objektmatrix die ebenfalls in Abb. 5 dargestellte symmetrische Jaccard-Distanz-Matrix:

Abbildung 5

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?