Stoppwort

Stoppwort

Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.

Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von'), sowie die Negation 'nicht'. Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet.

Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.

Eine weitere Gemeinsamkeit ist ihre große Zahl: sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden.

Stoppwörter dienen der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Ein solches Suchergebnis wäre für den Anwender nutzlos.

Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Grundformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… …   Deutsch Wikipedia

  • Klassifizierer — Die Artikel Klassifikator (Informatik) und Klassifikationsverfahren überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte… …   Deutsch Wikipedia

  • Normalformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… …   Deutsch Wikipedia

  • Stammformreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… …   Deutsch Wikipedia

  • Automatische Indexierung — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… …   Deutsch Wikipedia

  • Indexieren — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… …   Deutsch Wikipedia

  • KWIC — Ein Permutiertes (alphabetisches) Register, Permutiertes Verzeichnis oder Kettenregister ist eine besondere Form eines Registers, bei dem ganze Phrasen (Titel wie Buchtitel und Überschriften oder Schlagwortketten) mehrfach so permutiert… …   Deutsch Wikipedia

  • Kettenregister — Ein Permutiertes (alphabetisches) Register, Permutiertes Verzeichnis oder Kettenregister ist eine besondere Form eines Registers, bei dem ganze Phrasen (Titel wie Buchtitel und Überschriften oder Schlagwortketten) mehrfach so permutiert… …   Deutsch Wikipedia

  • Klassifikator (Informatik) — Ein Klassifikator (Informatik) ist ein Algorithmus, der Objekte (z.B. Dokumente) anhand ihrer Merkmale in vorgegebene Kategorien einordnet. Der Begriff Klassifikator wird meist spezifisch für solche Algorithmen verwendet, in denen der… …   Deutsch Wikipedia

  • Manuelle Indexierung — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”