Vektorraum-Retrieval

Vektorraum-Retrieval

Das Vektorraum-Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren zur Informationsbeschaffung, bei dem die Informationen als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert werden. Zur Auswertung wird die mathematische Distanz zwischen dem Suchvektor und dem Dokument-/Informationsvektor ausgewertet. Das Vektorraummodell wurde erstmals im SMART-System[1] implementiert, das unter der Leitung von Gerard Salton an der Cornell University entwickelt wurde.

Inhaltsverzeichnis

Vereinfachte Beschreibung

Stark vereinfacht kann man sich dieser Form der Informationsbeschaffung zugrundeliegende Modell wie folgt vorstellen: jedem Wort des Dokumentes wird eine Dimension zugeordnet. Um den Punkt eines Dokumentes (oder einer Anfrage) in diesem Vektorraum zu bestimmen, kann in einer sehr einfachen Variante des Vektorraum-Modells beispielsweise gezählt werden, welches Wort wie oft im Dokument auftritt. Der Punkt des Dokumentes im Vektorraum (der Dokumentenvektor) entspricht dann den Häufigkeiten dieser Wörter. Beispielsweise könnte man somit das aus einem Satz bestehende Dokument „Die Explosion zerstört die Vegetation“ als Vektor (0,…,2,…,1,…,1,…,1,…) beschreiben: Das Wort die tritt zweimal auf, Explosion, zerstört und Vegetation jemals einmal; sonstige Wörter treten nicht (0 mal) auf.

Suchanfragen lassen sich auf dieselbe Weise kodieren; eine fiktive Suchanfrage „Zerstört die Explosion die Vegetation?“ entspräche wegen der gleichen Wortverteilung in diesem Fall genau demselben (Anfrage-)vektor (0,…,2,…,1,…,1,…,1,…). Das Finden von Dokumenten, die möglichst gut mit der Suchanfrage übereinstimmen, kann man daher mit Hilfe des Vektorraummodelles so lösen, dass man diejenigen Dokumente sucht, deren Vektor möglichst „ähnlich“ zum Vektor der Suchanfrage ist. Eine einfache Möglichkeit könnte beispielsweise sein, Dokumentenvektoren zu suchen, die parallel zum Anfragevektor liegen oder nur um einen kleinen Winkel von ihm abweichen.

In der Realität sind Vektorraummodelle erheblich komplexer und berücksichtigen beispielsweise unterschiedliche Häufigkeiten von Wörtern: „die“ oder „ist“ treten beispielsweise in nahezu jedem deutschsprachigen Dokument auf und sind daher nicht sehr aussagekräftig, wohingegen seltenere Wörter wie beispielsweise „Desoxyribonukleinsäure“ seltener sind und somit potenziell besser geeignet sind, das Dokument von anderen inhaltlich abzugrenzen.

Vorgehensweise

Um Vektorraum-Retrieval zu ermöglichen, sind einige Vorarbeiten nötig. Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes und der Dokument-Indexierung, bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im Dokumentvektorenraum abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der Häufigkeit von Merkmalen wie Termen, Lemmata oder n-Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen.

Das Retrieval im Vektorraummodell führt zunächst eine Query-Indizierung durch, bei welcher die Anfrage auf einen Vektor im Vektorraum abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte Ähnlichkeit bezüglich dem Queryvektor besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten präsentiert, welche mit der Liste der Dokumentvektoren korrespondiert.

Literatur

  • Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. ACM Press, New York, 1999, ISBN 0-201-39829-X.
  • Ferber, Reginald: Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg, 2003, ISBN 3-89864-213-5.
  • Grossman, D.A.; Frieder, O.: Information Retrieval. Springer, Niederlande, 2. Auflage, 2004, ISBN 1-4020-3004-5.
  • Kowalski, Gerald; Maybury, M.T.: Information Storage and Retrieval Systems. Kluwer, Boston, 2000.
  • Panyr, Jiří: Automatische Klassifikation und Information Retrieval. Tübingen, 1986.
  • Panyr, Jiří: Vektorraum-Modell und Clusteranalyse in Information-Retrieval-Systemen. In: Nachrichten für Dokumentation 38, S. 13 - 20, 1987.
  • Salton, Gerard; McGill, M.J.: Information Retrieval. MacGraw-Hill, 1987.

Siehe auch

Einzelnachweise

  1. The European Technology Platform on Smart Systems Integration (EPoSS)

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Vektorraum Retrieval — Das Vektorraum Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren des Information Retrieval, bei dem Dokumente und Suchanfragen (Queries) als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert sind. Zum Retrieval… …   Deutsch Wikipedia

  • Retrieval — (engl. für Wiederfinden, Abholen) wird im Allgemeinen im Kontext von Datenbank oder Informationssystemabfragen verwendet und kann im Speziellen stehen für: Information Retrieval Erweitertes Boolesches Retrieval Fuzzy Retrieval Library Computer… …   Deutsch Wikipedia

  • Retrieval status value — Als Retrieval status value (abgekürzt RSV) bezeichnet man im Information Retrieval einen Wert, der bei verschiedenen Retrievalmodellen den Resultaten einer Suchanfrage zugeordnet wird und eine Aussage darüber macht, wie relevant das entsprechende …   Deutsch Wikipedia

  • Information-Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

  • Information retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der Informationswissenschaft …   Deutsch Wikipedia

  • Boolesches Retrieval — (nach George Boole) ist eine einfache Form des Information Retrieval, bei der die Wörter einer Suchanfrage mit Booleschen Operatoren (UND, ODER, NICHT) verknüpft werden. Die Dokumente in einem Information Retrieval System mit Booleschem Retrieval …   Deutsch Wikipedia

  • Vektorraummodell — Das Vektorraum Retrieval (engl.: Vector Space Model (VSM)) ist ein Verfahren des Information Retrieval, bei dem Dokumente und Suchanfragen (Queries) als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert sind. Zum Retrieval… …   Deutsch Wikipedia

  • Latent Semantic Indexing — (kurz LSI, englisch für schwache Bedeutungseinordnung) ist ein (patentgeschütztes) Verfahren des Information Retrieval, das 1990 zuerst von Deerwester et al.[1] erwähnt wurde. Verfahren wie das LSI sind insbesondere für die Suche auf großen… …   Deutsch Wikipedia

  • Informationretrieval — Information Retrieval [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der… …   Deutsch Wikipedia

  • Informationsrückgewinnung — Information Retrieval [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationswiedergewinnung, gelegentlich Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem inhaltsorientiertem Suchen beschäftigt. Es ist ein Teilgebiet der… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”