Invertierte Datei

Invertierte Datei

Invertierte Dateien werden im Bereich des Information Retrievals als Grundlage für die Durchführung verschiedener Suchanfragen benötigt, beispielsweise für die Suche mit Booleschen Operatoren und Trunkierungen.

Dazu wird ein Index für eine Dokumentsammlung (beispielsweise eine Literaturdatenbank) angelegt, der den einzelnen suchbaren Begriffen jeweils die entsprechenden Dokumente zuordnet. Die invertierte Datei zu einem (Such-)Begriff verweist auf alle Dokumente, die mit diesem bestimmten Begriff verknüpft sind. Dazu erhält die invertierte Datei Informationen wie beispielsweise die Dokumentnummern bzw. deren Adressen in der Datenbank, eine Angabe, wie häufig der Begriff in der Gesamtdatenbank vorkommt (bzw. die Anzahl der Dokumente, in denen der Eintrag mindestens einmal vorkommt). Für das Retrieval und die Gewichtung der Suchergebnisse nützlich sind außerdem Angaben dazu, an welcher Position im Dokument der Begriff vorkommt (als wievieltes Wort, im wievielten Satz oder Absatz). Soll eine Linkstrunkierung ermöglicht werden, muss zusätzlich jeder Begriff rückwärts geschrieben mit angelegt werden.

Vorteil dieses Systems ist ein rascher Zugriff auf Dokumente, da nur der Index (und nicht die Dokumente selbst) durchsucht werden muss. Der Index lässt sich gut für die Erstellung von Retrievalsystemen nutzen. Suchmöglichkeiten können ausgeschöpft und die Suchoberfläche relativ frei gestaltet werden. Der große Nachteil besteht jedoch im enormen Aufwand, den die Erstellung eines solchen Indexes fordert und im großen benötigten Speicherplatz. Zudem muss der Index jedes Mal aktualisiert werden, sobald neue Dokumente hinzukommen.

Das Prinzip der Invertierten Dateien basiert auf einem System von Hermann Hollerith, der 1890 als erster Lochkarten für die Auswertung einer Volkszählung in den USA einsetzte.

Die technische Umsetzung geschieht durch eine Indexstruktur.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Information Retrieval — [ˌɪnfɚˈmeɪʃən ɹɪˈtɹiːvəl] (IR) bzw. Informationsrückgewinnung, gelegentlich ungenau Informationsbeschaffung, ist ein Fachgebiet, das sich mit computergestütztem Suchen nach komplexen Inhalten (also z. B. keine Einzelwörter) beschäftigt und… …   Deutsch Wikipedia

  • Volltextindizierung — Eine Volltextrecherche ist das Auffinden von Texten in einer Vielzahl gleicher oder verschiedenartiger Dateien auf einem Computer, einem Server und/oder im Internet. Oftmals wird hierfür auch der Begriff Volltextsuche verwendet. Die Suchbereiche… …   Deutsch Wikipedia

  • Volltextsuche — Eine Volltextrecherche ist das Auffinden von Texten in einer Vielzahl gleicher oder verschiedenartiger Dateien auf einem Computer, einem Server und/oder im Internet. Oftmals wird hierfür auch der Begriff Volltextsuche verwendet. Die Suchbereiche… …   Deutsch Wikipedia

  • Trunkieren — Als Trunkierung (aus dem lateinischen truncare abschneiden, siehe englisch truncation) wird die Abkürzung von Suchbegriffen bei der Recherche in Datenbanken und Information Retrieval Systemen bezeichnet. Bezweckt wird damit eine größere Abdeckung …   Deutsch Wikipedia

  • Datenbankindex — Ein Datenbankindex, oder kurz Index (im Plural „Indexe“ oder „Indizes“), ist eine von der Datenstruktur getrennte Indexstruktur in einer Datenbank, die die Suche und das Sortieren nach bestimmten Feldern beschleunigt. Ein Index besteht aus einer… …   Deutsch Wikipedia

  • Inversion — Diese Seite wird derzeit im Sinne der Richtlinien für Begriffsklärungen auf der Diskussionsseite des Wikiprojektes Begriffsklärungen diskutiert. Hilf mit, die Mängel zu beseitigen, und beteilige dich an der Diskussion! Hinweise zur Überarbeitung …   Deutsch Wikipedia

  • Volltextrecherche — Eine Volltextrecherche (oftmals auch Volltextsuche) ist das Auffinden von Texten in einer Vielzahl gleicher oder verschiedenartiger Dateien auf einem Computer, einem Server und/oder im Internet. Die Suchbereiche werden zuvor mit entsprechenden… …   Deutsch Wikipedia

  • Double Bass Array — Ein Double Bass Array bezeichnet eine bestimmte räumliche Anordnung mehrerer Tieftonlautsprecher in einem quaderförmigen Hörraum. Es dient dem Zweck, unerwünschte Resonanzen bei der Musikwiedergabe mit einer Hifi oder Heimkinoanlage durch… …   Deutsch Wikipedia

  • Qualia — Farben sind ein klassisches Problem der Qualiadebatte: Wie kommt es, dass bei der Verarbeitung von bestimmten Lichtwellen Farberlebnisse entstehen? Unter Qualia (Singular: Quale, von lat. qualis „wie beschaffen“) oder phänomenalem Bewusstsein… …   Deutsch Wikipedia

  • Bücherverbrennung 1933 in Deutschland — Bücherverbrennung auf dem Opernplatz in Berlin am 10. Mai 1933 …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”