Stoppwort

Stoppwort: Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.

Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von'), sowie die Negation 'nicht'. Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet.

Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.

Eine weitere Gemeinsamkeit ist ihre große Zahl: sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden.

Stoppwörter dienen der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Ein solches Suchergebnis wäre für den Anwender nutzlos.

Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.

Weblinks

Liste deutscher Stoppwörter

Übersicht deutscher Stoppwörter

Liste englischer Stoppwörter

Kategorie:
Information Retrieval

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

Grundformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Klassifizierer — Die Artikel Klassifikator (Informatik) und Klassifikationsverfahren überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte… … Deutsch Wikipedia
Normalformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Stammformreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Automatische Indexierung — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… … Deutsch Wikipedia
Indexieren — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… … Deutsch Wikipedia
KWIC — Ein Permutiertes (alphabetisches) Register, Permutiertes Verzeichnis oder Kettenregister ist eine besondere Form eines Registers, bei dem ganze Phrasen (Titel wie Buchtitel und Überschriften oder Schlagwortketten) mehrfach so permutiert… … Deutsch Wikipedia
Kettenregister — Ein Permutiertes (alphabetisches) Register, Permutiertes Verzeichnis oder Kettenregister ist eine besondere Form eines Registers, bei dem ganze Phrasen (Titel wie Buchtitel und Überschriften oder Schlagwortketten) mehrfach so permutiert… … Deutsch Wikipedia
Klassifikator (Informatik) — Ein Klassifikator (Informatik) ist ein Algorithmus, der Objekte (z.B. Dokumente) anhand ihrer Merkmale in vorgegebene Kategorien einordnet. Der Begriff Klassifikator wird meist spezifisch für solche Algorithmen verwendet, in denen der… … Deutsch Wikipedia
Manuelle Indexierung — Dieser Artikel beschäftigt sich mit der Erschließung von Dokumenten. Weitere Bedeutungen siehe unter Index und Indizierung. Als Indexierung oder auch Verschlagwortung (Österreich: Beschlagwortung) bezeichnet man beim Information Retrieval die… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Stoppwort

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Stoppwort

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link