Porter-Stemmer-Algorithmus

Porter-Stemmer-Algorithmus: Der Porter-Stemmer-Algorithmus ist ein verbreiteter Algorithmus der Computerlinguistik zum automatischen Zurückführen von Wörtern auf ihren Wortstamm (Stemming). Der Algorithmus basiert auf einer Menge von Verkürzungsregeln, die so lange auf ein zu stemmendes Wort angewandt werden, bis dieses eine Minimalanzahl von Silben aufweist. Der ursprünglich für Wörter der englischen Sprache entwickelte Algorithmus kann relativ leicht für andere Sprachen portiert werden.

Inhaltsverzeichnis

1 Funktionsweise

1.1 Bestimmung der Silbenanzahl

1.2 Verkürzungsregeln

2 Implementierungen

3 Anmerkungen

4 Literatur

5 Weblinks

Funktionsweise

Bestimmung der Silbenanzahl

Maßgeblich ist genaugenommen nicht die Anzahl der Silben, sondern die Anzahl der Vokal-Konsonant-Sequenzen. Jedes Wort lässt sich als eine Zeichenkette der Form [C](VC)^m[V] interpretieren, wobei C für eine Folge von einem oder mehreren Konsonanten und V für eine Folge von einem oder mehreren Vokalen steht. Gemessen wird die Anzahl m der Vokal-Konsonant-Sequenzen zwischen optional führenden Konsonanten und einer optionalen Folge von Vokalen am Ende.

Beispiele:

tr-ee, t-o (m=0)

w-eb, ant (m=1)

b-etw-een (m=2)

W-ik-ip-ed-ia (m=3)

Verkürzungsregeln

Die Verkürzungsregeln bestehen aus Paaren von Bedingungen und Ableitungen für verschiedene Suffixe (Wortendungen). Die Regeln sind in Gruppen zusammengefasst, die nacheinander abgearbeitet werden. Aus jeder Gruppe darf nur eine Regel angewandt werden.

Beispiel: Die erste Gruppe beinhaltet die Suffix-Verkürzungsregeln "sses" → "s", "ies" → "i" und "s" → "", die beispielsweise zu den Ableitungen "libraries" → "librari" und "Wikis" → "Wiki" führen. Eine später folgende Gruppe besteht aus der Regel "y" → "i", so dass beispielsweise das Wort "library" auf den gleichen Stamm ("library" → "librari") zurückgeführt wird.

Implementierungen

Auf der Webseite des Porter-Stemmer-Algorithmus finden sich Implementierungen in mehreren Programmiersprachen. Unter http://snowball.tartarus.org/ befindet sich das "aktuelle" Projekt von Martin Porter. Dort findet man auch einen Porter Stemmer für die deutsche Sprache.

Anmerkungen

Die aus einem Wort abgeleiteten Stämme entsprechen oft nicht den linguistisch korrekten Wortstämmen. Da das Ziel des Stemmings jedoch keine linguistische Analyse ist, sondern verwandte Worte auf ein und dieselbe Zeichenkette zurückgeführt werden sollen, spielt dies keine Rolle.

Wie praktisch alle Stemming-Algorithmen arbeitet auch der Porter-Stemmer nicht mit hundertprozentiger Genauigkeit, so dass es bei einigen Worten vorkommen kann, dass zu viel (Overstemming) oder zu wenig (Understemming) abgeschnitten wird. In der Praxis ist er jedoch ausreichend gut. (siehe auch weitere Hintergrundinformationen zum Thema im Artikel Stemming).

Literatur

M.F. Porter: An algorithm for suffix stripping. In: Program, 14(3), S. 130-137, Juli 1980

Weblinks

The Porter Stemming Algorithm – Martin Porters Webseite zum Porter-Stemming-Algorithmus

Kategorien:
Algorithmus
Computerlinguistik

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

Porter — steht für: Porter (Bier), ein dunkles Bier (1636) Porter, Asteroid des Hauptgürtels Michael E. Porter, bedeutender Managementtheoretiker, Begründer des Fünf Kräfte Modells Porter (Mondkrater), Mondkrater Porter (Familienname) Im weiteren Sinn für … Deutsch Wikipedia
Stemming — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis… … Deutsch Wikipedia
Grundformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Normalformenreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Stammformreduktion — Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf… … Deutsch Wikipedia
Soundex — Algorithmus Soundex ist ein phonetischer Algorithmus zur Indizierung von Wörtern und Phrasen nach ihrem Klang in der englischen Sprache. Gleichklingende Wörter sollen dabei zu einer identischen Zeichenfolge kodiert werden. Der Soundex Algorithmus … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Porter-Stemmer-Algorithmus

Inhaltsverzeichnis

Funktionsweise

Bestimmung der Silbenanzahl

Verkürzungsregeln

Implementierungen

Anmerkungen

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Porter-Stemmer-Algorithmus

Inhaltsverzeichnis

Funktionsweise

Bestimmung der Silbenanzahl

Verkürzungsregeln

Implementierungen

Anmerkungen

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link