Vektorraummodell

Vektorraummodell

Das Vektorraum-Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren des Information Retrieval, bei dem Dokumente und Suchanfragen (Queries) als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert sind. Zum Retrieval wird die Distanz zwischen dem Queryvektor und dem Dokumentvektor genutzt. Das Vektorraummodell wurde erstmals im SMART-System implementiert, das unter der Leitung von Gerard Salton an der Cornell University entwickelt wurde.

Inhaltsverzeichnis

Vereinfachte Beschreibung

Stark vereinfacht kann man sich das dem Vektorraum-Retrieval zugrundeliegende Modell so vorstellen, dass jedem Wort der Sprache des Dokumentes eine Dimension zugeordnet wird. Um den Punkt eines Dokumentes (oder einer Anfrage) in diesem Vektorraum zu bestimmen, kann in einer sehr einfachen Variante des Vektorraum-Modells beispielsweise gezählt werden, welches Wort wie oft im Dokument auftritt. Der Punkt des Dokumentes im Vektorraum (der Dokumentenvektor) entspricht dann den Häufigkeiten dieser Wörter. Beispielsweise könnte man somit das aus einem Satz bestehende Dokument „Die Explosion zerstört die Vegetation“ als Vektor (0,…,2,…,1,…,1,…,1,…) beschreiben: Das Wort die tritt zweimal auf, Explosion, zerstört und Vegetation jemals einmal; sonstige Wörter treten nicht (0 mal) auf.

Suchanfragen lassen sich auf dieselbe Weise kodieren; eine fiktive Suchanfrage „Zerstört die Explosion die Vegetation?“ entspräche wegen der gleichen Wortverteilung in diesem Fall genau demselben (Anfrage-)vektor (0,…,2,…,1,…,1,…,1,…). Das Finden von Dokumenten, die möglichst gut mit der Suchanfrage übereinstimmen, kann man daher mit Hilfe des Vektorraummodelles so lösen, dass man diejenigen Dokumente sucht, deren Vektor möglichst „ähnlich“ zum Vektor der Suchanfrage ist. Eine einfache Möglichkeit könnte beispielsweise sein, Dokumentenvektoren zu suchen, die parallel zum Anfragevektor liegen oder nur um einen kleinen Winkel von ihm abweichen.

In der Realität sind Vektorraummodelle erheblich komplexer und berücksichtigen beispielsweise unterschiedliche Häufigkeiten von Wörtern: „die“ oder „ist“ treten beispielsweise in nahezu jedem deutschsprachigen Dokument auf und sind daher nicht sehr aussagekräftig, wohingegen seltenere Wörter wie beispielsweise „Desoxyribonukleinsäure“ seltener sind und somit potenziell besser geeignet sind, das Dokument von anderen inhaltlich abzugrenzen.

Vorgehensweise

Um Vektorraum-Retrieval zu ermöglichen, sind einige Vorarbeiten nötig. Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes und der Dokument-Indexierung, bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im Dokumentvektorenraum abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der Häufigkeit von Merkmalen wie Termen, Lemmata oder n-Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen.

Das Retrieval im Vektorraummodell führt zunächst eine Query-Indexierung durch, bei welcher die Anfrage auf einen Vektor im Vektorraum abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte Ähnlichkeit bezüglich dem Queryvektor besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten präsentiert, welche mit der Liste der Dokumentvektoren korrespondiert.

Literatur

  • Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. ACM Press, New York, 1999, ISBN 0-201-39829-X.
  • Ferber, Reginald: Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg, 2003, ISBN 3-89864-213-5.
  • Grossman, D.A.; Frieder, O.: Information Retrieval. Springer, Niederlande, 2. Auflage, 2004, ISBN 1-4020-3004-5.
  • Kowalski, Gerald; Maybury, M.T.: Information Storage and Retrieval Systems. Kluwer, Boston, 2000.
  • Panyr, Jiri: Automatische Klassifikation und Information Retrieval. Tübingen, 1986.
  • Panyr, Jiri: Vektorraum-Modell und Clusteranalyse in Information-Retrieval-Systemen. In: Nachrichten für Dokumentation 38, S. 13 - 20, 1987.
  • Salton, Gerard; McGill, M.J.: Information Retrieval. MacGraw-Hill, 1987.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Relevance feedback — Die Artikel Relevanz Feedback, Relevanz Feedback (IRS), Relevance Feedback und Relevanz Feedback (IS) überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion… …   Deutsch Wikipedia

  • Information Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationsrückgewinnung, gelegentlich ungenau Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem Suchen nach komplexen Inhalten (also z. B. keine Einzelwörter) beschäftigt und… …   Deutsch Wikipedia

  • Relevance Feedback — Das Relevance Feedback Verfahren findet im Information Retrieval Anwendung, einer Teildisziplin der Informatik und der Informationswissenschaft. Es beschreibt ein Verfahren zur schrittweise verlaufenden Verbesserung von Suchergebnissen einer… …   Deutsch Wikipedia

  • Vektorraum-Retrieval — Das Vektorraum Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren zur Informationsbeschaffung, bei dem die Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Zur Auswertung wird die… …   Deutsch Wikipedia

  • Vektorraum Retrieval — Das Vektorraum Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren des Information Retrieval, bei dem Dokumente und Suchanfragen (Queries) als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert sind. Zum Retrieval… …   Deutsch Wikipedia

  • Informationswissenschaft — Die Informationswissenschaft untersucht Information und Wissen. Für das Verständnis der Informationswissenschaft relevant ist die Bedeutung von Information als ein dynamischer Prozess (aktiv: informieren; passiv: informiert werden) und von Wissen …   Deutsch Wikipedia

  • Informationswissenschaften — Die Informationswissenschaft untersucht Information und Wissen. Für das Verständnis der Informationswissenschaft relevant ist die Bedeutung von Information als ein dynamischer Prozess (aktiv: informieren; passiv: informiert werden) und von Wissen …   Deutsch Wikipedia

  • Informationswissenschaftler — Die Informationswissenschaft untersucht Information und Wissen. Für das Verständnis der Informationswissenschaft relevant ist die Bedeutung von Information als ein dynamischer Prozess (aktiv: informieren; passiv: informiert werden) und von Wissen …   Deutsch Wikipedia

  • Ordnungssystem — Ein Ordnungssystem definiert eine Ordnung und beschreibt ein Ordnungsprinzip. Ein Ordnungssystem ist durch die Menge aller zur Indexierung der Dokumentationseinheiten zugelassenen Deskriptoren mit den dazugehörigen Erläuterungen und Hinweisen… …   Deutsch Wikipedia

  • SMART — steht für: Smart (Automarke), eine Fahrzeugmarke der Daimler AG Smart (Motorrad), Motorradhersteller Smart Export, eine Zigarettenmarke Smart Label, eine Klasse flacher RFID Systeme Smart Package Manager, eine Software zum Verwalten und… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”