Ähnlichkeitsanalyse

In der Statistik, insbesondere der Multivariaten Statistik, interessiert man sich für die Messung der Ähnlichkeit zwischen verschiedenen Objekten und definiert dazu sogenannte Ähnlichkeits- oder auch Distanzmaße. Es handelt sich dabei aber nicht um ein Maß im mathematischen Sinne, der Begriff bezieht sich damit ausschließlich auf die Messung einer bestimmten Größe. In der Regel werden Distanzmaße für metrisch skalierte Variablen genutzt, während Ähnlichkeitsmaße für nominal oder ordinal skalierte Variablen genutzt werden.

Inhaltsverzeichnis

1 Ähnlichkeitsmaß
2 Distanzmaß
- 2.1 Definition
- 2.2 Einige Distanzmaße
3 Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen
4 Einzelnachweise
5 Siehe auch
6 Literatur

Ähnlichkeitsmaß

Definition

Sei $I = \left\{1, 2, \dots, N\right\}$ eine endliche Menge. Eine Funktion $s : I \times I \rightarrow \mathbb{R}$ heißt Ähnlichkeitsmaß oder Ähnlichkeitsfunktion, falls gilt:

$s(i,j) = s(j,i) \quad \forall \, i,j \in I$
$s(i,j) \leq s(i,i) \quad \forall \, i,j \in I$

Zudem wird oft noch gefordert, dass:

$s(i,j) \geq 0$ und $s(i,i) = 1 \quad \forall \, i,j \in I$

Die Funktionswerte $s (i, j)$ lassen sich zu einer symmetrischen $N \times N$ -Matrix $\left(s(i,j)\right)_{i,j}$ anordnen. Diese Matrix heißt Ähnlichkeitsmatrix. In diesem Kontext wird $s (i, j)$ auch als Ähnlichkeitskoeffizient bezeichnet.

Einige Ähnlichkeitsmaße

Für $p$ binäre Variablen und zwei Beobachtungen $i$ und $j$ sei

$n_{00} = \sum_{k=1}^p I(x_{ik}=0, x_{jk}=0)$ , $n_{01} = \sum_{k=1}^p I(x_{ik}=0, x_{jk}=1)$ ,

$n_{10} = \sum_{k=1}^p I(x_{ik}=1, x_{jk}=0)$ , $n_{11} = \sum_{k=1}^p I(x_{ik}=1, x_{jk}=1)$ und

$p=n_{00}+n_{01}+n_{10}+n_{11}\,$ .

Dann kann man folgende Maße definieren:

Ähnlichkeitsmaß	$s (i, j)$
Braun	$\frac{n_{11}}{\max(n_{11}+n_{01},n_{11}+n_{10})}$
Dice	$\frac{2n_{11}}{n_{01}+n_{10}+2n_{11}}$
Hamann	$\frac{(n_{00}+n_{11})-(n_{01}+n_{10})}{p}$
Jaccard (S-Koeffizient)	$\frac{n_{11}}{n_{01}+n_{10}+n_{11}}$
Kappa	$\frac{1}{1+\tfrac{p(n_{01}+n_{10})}{2(n_{00}n_{11}-n_{01}n_{10})}}$
Kulczynski	$\frac{n_{11}}{n_{01}+n_{10}}$
Ochiai	$\frac{n_{11}}{\sqrt{(n_{11}+n_{01})(n_{11}+n_{10})}}$
Phi	$\frac{n_{11}n_{00}-n_{10}n_{01}}{\sqrt{(n_{11}+n_{01})(n_{11}+n_{10})(n_{00}+n_{01})(n_{00}+n_{10})}}$
Russel Rao	$\frac{n_{11}}{p}$
Simple Matching (M-Koeffizient)	$\frac{n_{00}+n_{11}}{p}$
Simpson	$\frac{n_{11}}{\min(n_{11}+n_{01},n_{11}+n_{10})}$
Sneath	$\frac{n_{11}}{n_{11}+2n_{01}+2n_{10}}$
Tanimoto (Rogers)	$\frac{n_{00}+n_{11}}{n_{00}+2(n_{01}+n_{10})+n_{11}}$
Yule	$\frac{n_{00}n_{11}-n_{01}n_{10}}{n_{00}n_{11}+n_{01}n_{10}}$

Für nicht binäre nominale oder ordinale Variablen definiert man für jede Kategorie der Variablen eine binäre Variable und kann dann die Ähnlichkeitsmaße für binäre Variablen verwenden.

Wahl des Ähnlichkeitsmaß

Welches Ähnlichkeitsmaß man zur Analyse wählt, hängt von der Problemstellung ab. Es gibt jedoch einige Hinweise, wann sich welche Maß gut eignet in Abhängigkeit von den Eigenschaften der binären Variable.^[1]

Ist die Variable symmetrisch, d.h. beide Kategorien sind gleich wichtig (z.B. Geschlecht), dann ist oft das gleiche Vorhandensein ( $n 11$ ) bzw. die gleiche Abwesenheit ( $n 00$ ) wichtig für ein Ähnlichkeitsmaß. Dann können Simple Matching, Hamman oder Tanimoto verwendet werden.
Ist die Variable asymmetrisch, d.h. nur ein Kategorie spielt eine wesentliche Rolle (z.B. Krankheit aufgetreten), dann spielt oft nur das gleiche Auftreten ( $n 11$ ) eine Rolle. Dann können Dice, Jaccard, Kulczynskl, Ochiai, Braun, Simpson oder Sneath verwendet werden.
Kappa, Phi und Yule können sowohl im symmetrischen als auch im asymmetrischen Fall verwendet werden.

Bei der Wahl des Ähnlichkeitmaßes sollten auch Zusammenhänge zwischen den Maßen berücksichtigt werden:

Dice, Jaccard und Sneath sind monotone Funktionen voneinander

$\mbox{Sneath}\le\mbox{Jaccard}\le\mbox{Dice}.$

Betrachtet man Simpson und Braun, so ist das harmonische Mittel Dice, das arithmetische Mittel Kulczynski und das geometrisches Mittel Ochiai. Aus der Ungleichung der Mittelwerte folgt

$\mbox{Braun}\le\mbox{Dice}\le\mbox{Ochiai}\le\mbox{Kulczynski}\le\mbox{Simpson}.$

Auch Hamman, Rogers und Simple matching weisen einen Zusammenhang auf.

Distanzmaß

Definition

Sei $I = \left\{1, 2, \dots, N\right\}$ eine endliche Menge. Eine Funktion $d : I \times I \rightarrow \mathbb{R}$ heißt Distanzmaß oder Distanzfunktion, falls gilt:

$d(i,j) = d(j,i) \quad \forall \, i,j \in I$
$d(i,j) \geq 0$ und $d(i,i) = 0 \quad \forall \, i,j \in I$

Die Funktionswerte $d (i, j)$ lassen sich zu einer symmetrischen $N \times N$ -Matrix $\left(d(i,j)\right)_{i,j}$ anordnen. Diese Matrix heißt Distanzmatrix.

Falls die Funktion $d$ zusätzlich die Dreiecksungleichung erfüllt, ist sie eine Metrik. Häufig wird auch eine Metrik als Distanzfunktion bezeichnet.

Einige Distanzmaße

Für $p$ metrische Variablen und zwei Beobachtungen $i$ und $j$ kann man folgende Maße definieren:

Distanzmaß	$d (i, j)$
$L r$	$\left(\sum_{k=1}^p (x_{ik}-x_{jk})^r\right)^{1/r}$
Euklidisch $L 2$	$\sqrt{\sum_{k=1}^p (x_{ik}-x_{jk})^2}$
Pearson	$\sqrt{\sum_{k=1}^p \frac{(x_{ik}-x_{jk})^2}{s_k^2}}$ mit $s k$ die Standardabweichung der Variable $k$
City-Block Manhattan $L 1$	$\sum_{k=1}^p \|x_{ik}-x_{jk}\|$
Gower	$\sum_{k=1}^p \frac{\|x_{ik}-x_{jk}\|}{r_k}$ mit $r k$ die Spannweite der Variable $k$
Mahalanobis	$\sqrt{(x_i - x_j)^T S^{-1}(x_i - x_j)}$ mit $S$ die Kovarianzmatrix der Variablen $x i$

Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen

Allgemein kann man ein Distanzmaß aus einem Ähnlichkeitsmaß definieren durch^[2]

$d(i,j)=\sqrt{s(i,i)+s(j,j)-2s(i,j)}$ .

Einzelnachweise

↑ ShengLi Tzeng, Han-Ming Wu, Chun-Houh Chen: Selection of Proximity Measures for Matrix Visualization of Binary Data. In: Biomedical Engineering and Informatics, 2009. BMEI '09. 2nd International Conference on. 30. Oktober 2009, S. 1-9, doi:10.1109/BMEI.2009.5305137.
↑ Wolfgang Härdle, Léopold Simar: Applied Multivariate Statistical Analysis. 1. Auflage. Springer Verlag, Berlin 2003, ISBN 3540030794, S. 381.

Siehe auch

Literatur

Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München 1984, ISBN 3-486-28451-7
Ludwig Fahrmeir, Alfred Hamerle: Multivariate statistische Verfahren. de Gruyter, Berlin 1984, ISBN 3-11-008509-7

Kategorie:

Multivariate Statistik

Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

Hierarchische Clusteranalyse — Als Hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse (Strukturentdeckung in Datenbeständen). Cluster bestehen hierbei aus Objekten, die zueinander eine geringere Distanz (oder… … Deutsch Wikipedia
метод подобия — Метод исследования, основанный на теории подобия. [Сборник рекомендуемых терминов. Выпуск 88. Основы теории подобия и моделирования. Академия наук СССР. Комитет научно технической терминологии. 1973 г.] Тематики теория подобия и моделирования EN… … Справочник технического переводчика

Academic dictionaries and encyclopedias

Ähnlichkeitsanalyse

Inhaltsverzeichnis

Ähnlichkeitsmaß

Definition

Einige Ähnlichkeitsmaße

Wahl des Ähnlichkeitsmaß

Distanzmaß

Definition

Einige Distanzmaße

Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen

Einzelnachweise

Siehe auch

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Ähnlichkeitsanalyse

Inhaltsverzeichnis

Ähnlichkeitsmaß

Definition

Einige Ähnlichkeitsmaße

Wahl des Ähnlichkeitsmaß

Distanzmaß

Definition

Einige Distanzmaße

Zusammenhang zwischen Ähnlichkeits- und Distanzmaßen

Einzelnachweise

Siehe auch

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link