- Invertierte Datei
-
Invertierte Dateien werden im Bereich des Information Retrievals als Grundlage für die Durchführung verschiedener Suchanfragen benötigt, beispielsweise für die Suche mit Booleschen Operatoren und Trunkierungen.
Dazu wird ein Index für eine Dokumentsammlung (beispielsweise eine Literaturdatenbank) angelegt, der den einzelnen suchbaren Begriffen jeweils die entsprechenden Dokumente zuordnet. Die invertierte Datei zu einem (Such-)Begriff verweist auf alle Dokumente, die mit diesem bestimmten Begriff verknüpft sind. Dazu erhält die invertierte Datei Informationen wie beispielsweise die Dokumentnummern bzw. deren Adressen in der Datenbank, eine Angabe, wie häufig der Begriff in der Gesamtdatenbank vorkommt (bzw. die Anzahl der Dokumente, in denen der Eintrag mindestens einmal vorkommt). Für das Retrieval und die Gewichtung der Suchergebnisse nützlich sind außerdem Angaben dazu, an welcher Position im Dokument der Begriff vorkommt (als wievieltes Wort, im wievielten Satz oder Absatz). Soll eine Linkstrunkierung ermöglicht werden, muss zusätzlich jeder Begriff rückwärts geschrieben mit angelegt werden.
Vorteil dieses Systems ist ein rascher Zugriff auf Dokumente, da nur der Index (und nicht die Dokumente selbst) durchsucht werden muss. Der Index lässt sich gut für die Erstellung von Retrievalsystemen nutzen. Suchmöglichkeiten können ausgeschöpft und die Suchoberfläche relativ frei gestaltet werden. Der große Nachteil besteht jedoch im enormen Aufwand, den die Erstellung eines solchen Indexes fordert und im großen benötigten Speicherplatz. Zudem muss der Index jedes Mal aktualisiert werden, sobald neue Dokumente hinzukommen.
Das Prinzip der Invertierten Dateien basiert auf einem System von Hermann Hollerith, der 1890 als erster Lochkarten für die Auswertung einer Volkszählung in den USA einsetzte.
Die technische Umsetzung geschieht durch eine Indexstruktur.
Siehe auch
Wikimedia Foundation.