Part-of-speech Tagging

Unter Part-of-speech Tagging versteht man die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten (engl. part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z.B. angrenzende Adjektive oder Nomen) berücksichtigt.

Inhaltsverzeichnis

1 Verfahren
2 Prinzip
3 Literatur
4 Siehe auch
5 Weblinks

Verfahren

Die Erfassung und Kennzeichnung der Wortarten wurde ursprünglich manuell durchgeführt, im Laufe der Zeit wurde das Verfahren zunehmend durch die Computerlinguistik automatisiert. Die verwendeten Verfahren können in überwachtes maschinelles Lernen und unüberwachtes maschinelles Lernen unterteilt werden. Beim überwachten Lernen werden z.B. Hidden Markov Models oder Eric Brills Verfahren oder Entscheidungsbäume (nach Helmut Schmid) verwendet, und alle Wortart-Tags stammen aus einem vordefinierten so genannten Tagset. Für das Deutsche wird oft das Stuttgart-Tübingen-Tagset (STTS) verwendet. Beim unüberwachten Lernen steht das Tagset nicht vorher fest, sondern es entsteht durch ein stochastisches Verfahren.

Prinzip

Der Satz Petra liest einen langen Roman. wird mit dem Stuttgart-Tübingen-Tagset wie folgt getaggt:

Petra/NE liest/VVFIN einen/ART langen/ADJA Roman/NN ./$.

Hinter jedem Wort bzw. Satzzeichen steht das Tag nach einem Schrägstrich. Um das Wort einen im gegebenen Kontext richtig zu taggen, muss man es von den Formen des gleich lautenden Verbs unterscheiden; diese würden mit VVINF (für den Infinitiv) bzw. VVFIN (für die finite Form) getaggt.

Beim überwachten Lernen wird das Tag für einen mit Hilfe des Kontextes ausgewählt: Aus einem bereits getaggten Textkorpus wurden vorher z.B. die Wahrscheinlichkeiten für die Tag-Folgen VVFIN-ART, VVFIN-VVINF und VVFIN-VVFIN berechnet (so genanntes Training des Taggers). Da VVFIN-ART deutlich häufiger ist als die anderen beiden Folgen, wird einen in diesem Satz als ART getaggt. (Die häufige Folge kann lesen wird nicht mit VVFIN-VVINF, sondern mit VMFIN-VVINF getaggt.)

Beim unüberwachten Lernen gibt es kein vorheriges Training, sondern aus den zu taggenden Sätzen selbst wird errechnet, dass z.B. einen häufig nach liest oder lese steht, aber auch häufig am Satzende. Den dagegen steht häufig nach liest oder lese, aber nie oder selten am Satzende. Lesen steht häufig am Satzende und nie nach liest oder lese. Deswegen erzeugt der Tagger eine Wortart, zu der z.B. den gehört, und eine andere, die lesen enthält. Einen gehört zu beiden Wortarten. Dass es im gegebenen Satz wie den getaggt werden sollte, ergibt sich nach derselben Argumentation wie für den Tagger, der mittels überwachtem Lernen trainiert wurde.

Literatur

Eric Brill: A simple rule-based part-of-speech tagger. In Proceedings of the 3rd Conference on Applied Natural Language Processing (ANLP-92), pages 152-155, 1992.
Eugene Charniak: Statistical Techniques for Natural Language Parsing.; in: AI Magazine 18(4):33-44, 1997.
Hans van Halteren, Jakub Zavrel, Walter Daelemans: Improving Accuracy in Word Class Tagging through the Combination of Machine Learning Systems.; in: Computational Linguistics, 27(2): 199-229, 2001 (PDF 2,26 MB)
Helmut Schmid: Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing 1994, 1994.

Siehe auch

Weblinks

Kategorie:

Computerlinguistik

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

Part-of-speech tagging — (POS tagging or POST), also called grammatical tagging or word category disambiguation, is the process of marking up the words in a text as corresponding to a particular part of speech, based on both its definition, as well as its context i.e.,… … Wikipedia
Part-of-speech tagging — (POS tagging o POST), también llamado etiquetado gramatical, es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto su categoría gramatical. Este proceso se puede realizar en base a la definición de la palabra o el contexto … Wikipedia Español
Part-of-speech-Tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… … Deutsch Wikipedia
Part-of-speech tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… … Deutsch Wikipedia
Part of Speech Tagging — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… … Deutsch Wikipedia
Sliding window based part-of-speech tagging — is used to part of speech tag a text. A high percentage of words in a natural language are words which are independently of context can be assigned more than one morphological analysis. The percentage of these ambiguous words is typically around… … Wikipedia
Part of speech — Unter Wortart (auch: Wortklasse, Redeteile (partes orationis); englisch: part of speech) versteht man die Klasse von Wörtern einer Sprache auf Grund der Zuordnung nach gemeinsamen grammatischen Merkmalen. Die Wortartlehre versucht eine… … Deutsch Wikipedia
Part-of-speech tagger — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… … Deutsch Wikipedia
Part of Speech Tagger — Unter Part of speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Hierzu wird sowohl die Definition des Wortes als auch der Kontext (bspw. angrenzende Adjektive oder Nomen) berücksichtigt.… … Deutsch Wikipedia
part-of-speech tagger — noun a tagging program whose labels indicate a word s part of speech • Syn: ↑pos tagger • Hypernyms: ↑tagger, ↑tagging program … Useful english dictionary

Academic dictionaries and encyclopedias

Part-of-speech Tagging

Inhaltsverzeichnis

Verfahren

Prinzip

Literatur

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Part-of-speech Tagging

Inhaltsverzeichnis

Verfahren

Prinzip

Literatur

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link