Part-of-speech Tagging

Part-of-speech Tagging

Unter Part-of-speech Tagging versteht man die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten (engl. part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z.B. angrenzende Adjektive oder Nomen) berücksichtigt.

Inhaltsverzeichnis

Verfahren

Die Erfassung und Kennzeichnung der Wortarten wurde ursprünglich manuell durchgeführt, im Laufe der Zeit wurde das Verfahren zunehmend durch die Computerlinguistik automatisiert. Die verwendeten Verfahren können in überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen unterteilt werden. Beim überwachten Lernen werden z.B. Hidden Markov Models oder Eric Brills Verfahren oder Entscheidungsbäume (nach Helmut Schmid) verwendet, und alle Wortart-Tags stammen aus einem vordefinierten so genannten Tagset. Für das Deutsche wird oft das Stuttgart-Tübingen-Tagset (STTS) verwendet. Beim unüberwachten Lernen steht das Tagset nicht vorher fest, sondern es entsteht durch ein stochastisches Verfahren.

Prinzip

Der Satz Petra liest einen langen Roman. wird mit dem Stuttgart-Tübingen-Tagset wie folgt getaggt:

Petra/NE liest/VVFIN einen/ART langen/ADJA Roman/NN ./$.

Hinter jedem Wort bzw. Satzzeichen steht das Tag nach einem Schrägstrich. Um das Wort einen im gegebenen Kontext richtig zu taggen, muss man es von den Formen des gleich lautenden Verbs unterscheiden; diese würden mit VVINF (für den Infinitiv) bzw. VVFIN (für die finite Form) getaggt.

Beim überwachten Lernen wird das Tag für einen mit Hilfe des Kontextes ausgewählt: Aus einem bereits getaggten Textkorpus wurden vorher z.B. die Wahrscheinlichkeiten für die Tag-Folgen VVFIN-ART, VVFIN-VVINF und VVFIN-VVFIN berechnet (so genanntes Training des Taggers). Da VVFIN-ART deutlich häufiger ist als die anderen beiden Folgen, wird einen in diesem Satz als ART getaggt. (Die häufige Folge kann lesen wird nicht mit VVFIN-VVINF, sondern mit VMFIN-VVINF getaggt.)

Beim unüberwachten Lernen gibt es kein vorheriges Training, sondern aus den zu taggenden Sätzen selbst wird errechnet, dass z.B. einen häufig nach liest oder lese steht, aber auch häufig am Satzende. Den dagegen steht häufig nach liest oder lese, aber nie oder selten am Satzende. Lesen steht häufig am Satzende und nie nach liest oder lese. Deswegen erzeugt der Tagger eine Wortart, zu der z.B. den gehört, und eine andere, die lesen enthält. Einen gehört zu beiden Wortarten. Dass es im gegebenen Satz wie den getaggt werden sollte, ergibt sich nach derselben Argumentation wie für den Tagger, der mittels überwachtem Lernen trainiert wurde.

Literatur

  • Eric Brill: A simple rule-based part-of-speech tagger. In Proceedings of the 3rd Conference on Applied Natural Language Processing (ANLP-92), pages 152-155, 1992.
  • Eugene Charniak: Statistical Techniques for Natural Language Parsing.; in: AI Magazine 18(4):33-44, 1997.
  • Hans van Halteren, Jakub Zavrel, Walter Daelemans: Improving Accuracy in Word Class Tagging through the Combination of Machine Learning Systems.; in: Computational Linguistics, 27(2): 199-229, 2001 (PDF 2,26 MB)
  • Helmut Schmid: Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing 1994, 1994.

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Part-of-speech tagging — (POS tagging or POST), also called grammatical tagging or word category disambiguation, is the process of marking up the words in a text as corresponding to a particular part of speech, based on both its definition, as well as its context i.e.,… …   Wikipedia

  • Part-of-speech tagging — (POS tagging o POST), también llamado etiquetado gramatical, es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto su categoría gramatical. Este proceso se puede realizar en base a la definición de la palabra o el contexto …   Wikipedia Español

  • Part-of-speech-Tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… …   Deutsch Wikipedia

  • Part-of-speech tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… …   Deutsch Wikipedia

  • Part of Speech Tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… …   Deutsch Wikipedia

  • Sliding window based part-of-speech tagging — is used to part of speech tag a text. A high percentage of words in a natural language are words which are independently of context can be assigned more than one morphological analysis. The percentage of these ambiguous words is typically around… …   Wikipedia

  • Part of speech — Unter Wortart (auch: Wortklasse, Redeteile (partes orationis); englisch: part of speech) versteht man die Klasse von Wörtern einer Sprache auf Grund der Zuordnung nach gemeinsamen grammatischen Merkmalen. Die Wortartlehre versucht eine… …   Deutsch Wikipedia

  • Part-of-speech tagger — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… …   Deutsch Wikipedia

  • Part of Speech Tagger — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… …   Deutsch Wikipedia

  • part-of-speech tagger — noun a tagging program whose labels indicate a word s part of speech • Syn: ↑pos tagger • Hypernyms: ↑tagger, ↑tagging program …   Useful english dictionary

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”