Jaccard-Koeffizient

Jaccard-Koeffizient

Der Jaccard-Koeffizient oder Jaccard-Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen.

Inhaltsverzeichnis

Definition

Um den Jaccard-Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen Elemente durch die Größe der Vereinigungsmenge.

J(A,B) = \frac{|A \cap B|}{|A \cup B|}.

Für n Mengen gilt

J(S_1, S_2, ..., S_n) = \frac{|S_1 \cap S_2 \cap\ldots\cap S_n |}{|S_1 \cup S_2 \cup\ldots\cup S_n |}.

Beispiel

Die beiden Mengen A = {1,2,3,4,7} und B = {1,4,5,7,9} haben die Jaccard-Koeffizienten

\frac{|A\cap B|}{|A\cup B|}=\frac{|\{1,4,7\}|}{|\{1,2,3,4,5,7,9\}|}=\frac37=0{,}429\ldots

Jaccard-Metrik

Aus dem Jaccard-Koeffizienten lässt sich die Jaccard-Metrik ableiten. Diese Metrik berechnet sich nach der Formel

 J_{\delta}(A,B) = 1 - J(A,B) = { { |A \cup B| - |A \cap B| } \over |A \cup B| }.

Allgemein:

 J_{\delta}(S_1, S_2, \ldots, S_n) = 1 - J(S_1, S_2, \ldots, S_n) = \frac{|S_1 \cup S_2 \cup \ldots\cup S_n | - |S_1 \cap S_2 \cap \ldots\cap S_n |}{|S_1 \cup S_2 \cup \ldots \cup S_n |}.

Anwendungen

Im Bereich Textmining und hier insbesondere der Duplikaterkennung ist die Jaccard-Ähnlichkeit ein bekanntes Maß für die Ähnlichkeit zweier Elemente, o.B.d.A. Strings. Dabei werden die beiden Strings in Token zerlegt (z.B. geteilt an den Leerzeichen oder unter Verwendung von N-Grammen (n > 1)). Die daraus entstehenden Mengen an „String-Schnippseln“ werden wie oben beschrieben zur Berechnung der Ähnlichkeit der beiden Mengen verwendet.


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Jaccard — ist der Familienname folgender Personen: Louis Jaccard (1848 1908), Schweizer Politiker Louis Samuel Jaccard, Schweizer Politiker Paul Jaccard (1868–1944), Schweizer Botaniker Siehe auch: Jaccard Koeffizient Jacquard (Joseph Marie Jacquard) …   Deutsch Wikipedia

  • Jaccard-Index — Der Jaccard Koeffizient oder Jaccard Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen. Um den Jaccard Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen… …   Deutsch Wikipedia

  • Jaccard-Metrik — Der Jaccard Koeffizient oder Jaccard Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen. Um den Jaccard Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen… …   Deutsch Wikipedia

  • Hierarchische Clusteranalyse — Als Hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse (Strukturentdeckung in Datenbeständen). Cluster bestehen hierbei aus Objekten, die zueinander eine geringere Distanz (oder… …   Deutsch Wikipedia

  • Clusteranalyse — Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf… …   Deutsch Wikipedia

  • Ähnlichkeitsanalyse — In der Statistik, insbesondere der Multivariaten Statistik, interessiert man sich für die Messung der Ähnlichkeit zwischen verschiedenen Objekten und definiert dazu sogenannte Ähnlichkeits oder auch Distanzmaße. Es handelt sich dabei aber nicht… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”