Kosinus-Ähnlichkeit

Kosinus-Ähnlichkeit

Kosinus-Ähnlichkeit ist ein Maß für die Ähnlichkeit zweier Vektoren. Dabei wird der Kosinus des Winkels zwischen beiden Vektoren bestimmt. Der Kosinus des eingeschlossenen Winkels Null ist eins; für jeden anderen Winkel ist der Kosinus des eingeschlossenen Winkels kleiner als eins. Er ist daher ein Maß dafür, ob zwei Vektoren ungefähr in die gleiche Richtung zeigen.

Typische Anwendungen finden sich im Vergleich von Dokumenten, von Multimedia-Objekten, im Textmining, im Data-Mining, im Auffinden von Plagiaten, bei Suchmaschinen oder in der Kryptographie bei der Entschlüsselung chiffrierter Texte. Durch Ermittlung der Kosinus-Ähnlichkeit der Zeichen-Platzierungsvektoren gelang 2011 die Entschlüsselung des Codex Copiale, eines Dokuments in Geheimschrift.

Mathematik

Der Kosinus zweier Vektoren bestimmt sich aus dem Skalarprodukt:

\mathbf{a}\cdot\mathbf{b}
=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta

Die Kosinus-Ähnlichkeit zweier Vektoren A und B ist der Kosinus des eingeschlossenen Winkels θ

 \text{Kosinus-Aehnlichkeit} = \cos(\theta) = {A \cdot B \over \|A\| \|B\|} = \frac{ \sum_{i=1}^{n}{A_i \times B_i} }{ \sqrt{\sum_{i=1}^{n}{(A_i)^2}} \times \sqrt{\sum_{i=1}^{n}{(B_i)^2}} }

Die Kosinus-Ähnlichkeit reicht daher von −1, genau entgegen gerichtet, bis 1, genau gleichgerichtet. Ein Wert von 0 bedeutet üblicherweise Unabhängigkeit (Orthogonalität). Zwischenwerte zeigen Ähnlichkeit oder Unähnlichkeit an.

Bei Textvergleichen nimmt man als Attribut-Vektoren A and B üblicherweise Häufigkeits-Vektoren des Dokuments an, deren Gewicht nie negativ sein kann. Daher liegt die Kosinus-Ähnlichkeit in diesem Fall stets zwischen 0 und 1.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Sinus Hyperbolicus und Kosinus Hyperbolicus — Eine Gerade durch den Nullpunkt schneidet die Hyperbel x2 − y2 = 1 im Punkt , wobei A für die Fläche zwischen der Geraden, ihrem Spiegelbild bezogen auf die x Achse und der Hyperbel steht. (Siehe …   Deutsch Wikipedia

  • Latent Semantic Indexing — (kurz LSI, englisch für schwache Bedeutungseinordnung) ist ein (patentgeschütztes) Verfahren des Information Retrieval, das 1990 zuerst von Deerwester et al.[1] erwähnt wurde. Verfahren wie das LSI sind insbesondere für die Suche auf großen… …   Deutsch Wikipedia

  • Codex Copiale — Textseiten 16 und 17 Der Codex Copiale (vorläufige Benennung) ist eine Handschrift aus dem 18. Jahrhundert in Geheimschrift, die bis 2011 der Öffentlichkeit nicht bekannt war. Die Entzifferung des Textes gelang dem amerikanischen… …   Deutsch Wikipedia

  • Latent Semantic Analysis — Latent Semantic Indexing (kurz LSI) ist ein (patentgeschütztes) Verfahren des Information Retrieval, das 1990 zuerst von Deerwester et al.[1] erwähnt wurde. Verfahren wie das LSI sind insbesondere für die Suche auf großen Datenmengen wie dem… …   Deutsch Wikipedia

  • A²+b²=c² — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

  • A² + b² = c² — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

  • Hypotenusensatz — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

  • Lehrsatz von Pythagoras — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

  • Pythagoreischer Lehrsatz — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

  • Pythagoräischer Lehrsatz — Der Satz des Pythagoras ist einer der fundamentalen Sätze der euklidischen Geometrie. Er besagt, dass in allen ebenen rechtwinkligen Dreiecken die Summe der Flächeninhalte der Kathetenquadrate gleich dem Flächeninhalt des Hypotenusenquadrates ist …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”