- Part-of-speech Tagging
-
Unter Part-of-speech Tagging versteht man die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten (engl. part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z.B. angrenzende Adjektive oder Nomen) berücksichtigt.
Inhaltsverzeichnis
Verfahren
Die Erfassung und Kennzeichnung der Wortarten wurde ursprünglich manuell durchgeführt, im Laufe der Zeit wurde das Verfahren zunehmend durch die Computerlinguistik automatisiert. Die verwendeten Verfahren können in überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen unterteilt werden. Beim überwachten Lernen werden z.B. Hidden Markov Models oder Eric Brills Verfahren oder Entscheidungsbäume (nach Helmut Schmid) verwendet, und alle Wortart-Tags stammen aus einem vordefinierten so genannten Tagset. Für das Deutsche wird oft das Stuttgart-Tübingen-Tagset (STTS) verwendet. Beim unüberwachten Lernen steht das Tagset nicht vorher fest, sondern es entsteht durch ein stochastisches Verfahren.
Prinzip
Der Satz Petra liest einen langen Roman. wird mit dem Stuttgart-Tübingen-Tagset wie folgt getaggt:
- Petra/NE liest/VVFIN einen/ART langen/ADJA Roman/NN ./$.
Hinter jedem Wort bzw. Satzzeichen steht das Tag nach einem Schrägstrich. Um das Wort einen im gegebenen Kontext richtig zu taggen, muss man es von den Formen des gleich lautenden Verbs unterscheiden; diese würden mit VVINF (für den Infinitiv) bzw. VVFIN (für die finite Form) getaggt.
Beim überwachten Lernen wird das Tag für einen mit Hilfe des Kontextes ausgewählt: Aus einem bereits getaggten Textkorpus wurden vorher z.B. die Wahrscheinlichkeiten für die Tag-Folgen VVFIN-ART, VVFIN-VVINF und VVFIN-VVFIN berechnet (so genanntes Training des Taggers). Da VVFIN-ART deutlich häufiger ist als die anderen beiden Folgen, wird einen in diesem Satz als ART getaggt. (Die häufige Folge kann lesen wird nicht mit VVFIN-VVINF, sondern mit VMFIN-VVINF getaggt.)
Beim unüberwachten Lernen gibt es kein vorheriges Training, sondern aus den zu taggenden Sätzen selbst wird errechnet, dass z.B. einen häufig nach liest oder lese steht, aber auch häufig am Satzende. Den dagegen steht häufig nach liest oder lese, aber nie oder selten am Satzende. Lesen steht häufig am Satzende und nie nach liest oder lese. Deswegen erzeugt der Tagger eine Wortart, zu der z.B. den gehört, und eine andere, die lesen enthält. Einen gehört zu beiden Wortarten. Dass es im gegebenen Satz wie den getaggt werden sollte, ergibt sich nach derselben Argumentation wie für den Tagger, der mittels überwachtem Lernen trainiert wurde.
Literatur
- Eric Brill: A simple rule-based part-of-speech tagger. In Proceedings of the 3rd Conference on Applied Natural Language Processing (ANLP-92), pages 152-155, 1992.
- Eugene Charniak: Statistical Techniques for Natural Language Parsing.; in: AI Magazine 18(4):33-44, 1997.
- Hans van Halteren, Jakub Zavrel, Walter Daelemans: Improving Accuracy in Word Class Tagging through the Combination of Machine Learning Systems.; in: Computational Linguistics, 27(2): 199-229, 2001 (PDF 2,26 MB)
- Helmut Schmid: Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing 1994, 1994.
Siehe auch
Weblinks
Wikimedia Foundation.