Stammformreduktion

Stammformreduktion

Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und schrieb auf schreiben.

Verschiedene Varianten eines Wortes können z. B. entstanden sein durch:

Stemming-Verfahren

Zum Stemming gibt es verschiedene Algorithmen für verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verifiziert werden können sondern erst an Textkorpora und in der Praxis getestet werden müssen.

Wenige Suchmaschinen bieten die Möglichkeit des Stemmings. Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit dem Stern-Operator. Dies bezeichnet man auch als Trunkierung.

Anmerkungen

Im Gegensatz zur Suche beispielsweise mit regulären Ausdrücken, die für Suche in großen Datenbeständen – z. B. Suchmaschinen – zu langsam wäre, wird eine Menge von Texten einmalig indexiert, um später schnell durchsucht werden zu können.

In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung (lief wegweglaufen) eine wichtige Rolle.

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”