Normalisierte Google-Distanz

Normalisierte Google-Distanz

Einer Theorie nach kann die normalisierte Google-Distanz (engl. normalized Google distance, kurz NGD) als statistische Größe für die semantische Nähe zweier Begriffe oder semantischer Konzepte dienen. Sie wird über die Anzahl der Treffer ermittelt, die für zwei in die Suchmaschine Google eingegebene Begriffe gefunden werden, sprich die Anzahl der Dokumente, welche beide Begriffe enthalten. Die NGD liegt normalerweise zwischen 0 und 1, je geringer sie ist, desto enger hängen zwei Begriffe zusammen.

Inhaltsverzeichnis

Ermittlung der normalisierten Google-Distanz

Gibt man einen Begriff, beispielsweise „Pferd“, in die Suchmaschine Google ein, erhält etwa 12.300.000 indexierte Seiten (Stand: September 2007). Für einen weiteren Begriff, zum Beispiel „Reiter“, sind es 13.900.000 Seiten. Kombiniert man die Begriffe, werden etwa 1.690.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe „Pferd“ und „Bart“ werden zwar immer noch 262.000 Seiten aufgeführt, es ist jedoch deutlich, dass „Pferd“ und „Reiter“ enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD.

Man definiert folgende Formel für die NGD zweier Begriffe x und y [1]:

NGD(x,y) = \frac{\max[{\log f(x),\log f(y)]}-\log f(x,y)}{\log M-\min[{\log f(x), \log f(y)}]}

Wobei f(x) die Anzahl der Treffer für einen gewissen Begriff x und M die Gesamtanzahl der indexierten Seiten benennt. NGD(x,y) ist nicht definiert für den Sonderfall f(x) = f(y) = 0. Die NGD von „Pferd“ und „Reiter“ beträgt ungefähr 0,307, die NGD von „Pferd“ und „Bart“ ungefähr 0,700.

Praktische Anwendungsbereiche

Die niederländische Wissenschaftler Paul Vitanyi und der amerikanische Wissenschaftler Rudi Cilibrasi glauben, mit diesem Verfahren einer Künstlichen Intelligenz die Bedeutung von Begriffen automatisch beibringen zu können. Eine von Cilibrasi entwickelte Open Source Software mit dem Namen Complearn konnte mit Hilfe der NGD bereits Farben von Zahlen trennen oder niederländische Maler anhand der Titel ihrer Werke gruppieren.

Weitere mögliche Anwendungen wären etwa auch in einer Übersetzungssoftware zu finden.

Verwandte Verfahren

Ein anderes Verfahren zum Messen der Distanz zweier Informationen, die normalisierte Informationsdistanz (engl. normalized information distance, kurz NID) wurde bereits zuvor von Paul Vitanyi eingeführt, welches die Nähe der Vergleichsobjekte anhand ihrer Eigenschaften analysiert.

Einzelnachweise

  1. Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (arXiv:cs/0412098v3, englisch)

Quellen


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • NGD — Die Abkürzung NGD bezeichnet: die Normalisierte Google Distanz die New Gibraltar Democracy, eine politische Partei in Gibraltar Diese Seite ist eine Begriffsklärung zur Unterscheidung mehrerer mit demselben Wort bezeichneter Begri …   Deutsch Wikipedia

  • Dynamic-Time-Warping — Dynamic time warp(ing) ist ein Algorithmus, um Wertefolgen unterschiedlicher Länge aufeinander abzubilden.[1] Inhaltsverzeichnis 1 Anwendung 2 Algorithmus 3 Siehe auch 4 …   Deutsch Wikipedia

  • Dynamic Time Warping — Dynamic time warp(ing) ist ein Algorithmus, um Wertefolgen unterschiedlicher Länge aufeinander abzubilden.[1] Inhaltsverzeichnis 1 Anwendung 2 Algorithmus 3 Siehe auch 4 Einzelnachweise 5 …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”