- Jaccard-Koeffizient
-
Der Jaccard-Koeffizient oder Jaccard-Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen.
Inhaltsverzeichnis
Definition
Um den Jaccard-Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen Elemente durch die Größe der Vereinigungsmenge.
- .
Für n Mengen gilt
Beispiel
Die beiden Mengen A = {1,2,3,4,7} und B = {1,4,5,7,9} haben die Jaccard-Koeffizienten
Jaccard-Metrik
Aus dem Jaccard-Koeffizienten lässt sich die Jaccard-Metrik ableiten. Diese Metrik berechnet sich nach der Formel
- .
Allgemein:
- .
Anwendungen
Im Bereich Textmining und hier insbesondere der Duplikaterkennung ist die Jaccard-Ähnlichkeit ein bekanntes Maß für die Ähnlichkeit zweier Elemente, o.B.d.A. Strings. Dabei werden die beiden Strings in Token zerlegt (z.B. geteilt an den Leerzeichen oder unter Verwendung von N-Grammen (n > 1)). Die daraus entstehenden Mengen an „String-Schnippseln“ werden wie oben beschrieben zur Berechnung der Ähnlichkeit der beiden Mengen verwendet.
Wikimedia Foundation.