- Normalformenreduktion
-
Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und schrieb auf schreiben.
Verschiedene Varianten eines Wortes können z. B. entstanden sein durch:
- Komposition, Dekomposition,
- Flexion,
- Derivation z. B. durch Hinzufügen von Affixen (Präfix, Suffix, Infix und Zirkumfix).
Stemming-Verfahren
Zum Stemming gibt es verschiedene Algorithmen für verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verifiziert werden können sondern erst an Textkorpora und in der Praxis getestet werden müssen.
- Porter-Stemmer-Algorithmus (eines der bekanntesten Verfahren)
- KSTEM (Robert Krovetz: Viewing morphology as an inference process, 1993)
- n-Gram-Verfahren
- Lexikonbasierte Stemming (Lemmatisierung)
- Korpusbasiertes Stemming
- Statistische Verfahren
- Computerlinguistische Verfahren
Wenige Suchmaschinen bieten die Möglichkeit des Stemmings. Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit dem Stern-Operator. Dies bezeichnet man auch als Trunkierung.
Anmerkungen
Im Gegensatz zur Suche beispielsweise mit regulären Ausdrücken, die für Suche in großen Datenbeständen – z. B. Suchmaschinen – zu langsam wäre, wird eine Menge von Texten einmalig indexiert, um später schnell durchsucht werden zu können.
In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung (lief weg ⇒ weglaufen) eine wichtige Rolle.
Siehe auch
- Indexierung, Volltextindexierung,
- Stoppwort,
- PoS-Tagging,
- Tagging (siehe Gemeinschaftliches Indexieren),
- Information Retrieval, Suchmaschine
Wikimedia Foundation.