Tokenisierung

Tokenisierung: Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval.

In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression.

Probleme der Tokenisierung

Üblicherweise wird ein Text bei der Tokenisierung in seine Wörter zerlegt. Die White-Space-Tokenisierung ist die einfachste Form einer solchen Zerlegung. Der Text wird bei diesem Verfahren an den Leer- und Interpunktionszeichen aufgetrennt. Bei nicht-segmentisierenden Schriften wie der chinesischen oder japanischen kann es nicht angewandt werden, da in diesen keine Leerzeichen vorhanden sind.

Bei einem alternativen Tokenisierungsverfahren bilden Folgen von Buchstaben ein Token, ebenso alle Folgen von Ziffern. Alle anderen Zeichen bilden für sich genommen ein Token.

Beide Verfahren sind jedoch problematisch im Fall von Mehrwortlexemen, speziell Eigennamen, Währungsangaben usw. Für den Satz Klaus-Rüdiger kauft in New York für $2.50 Fish'n'Chips. wäre aus linguistischer Sicht eine Segmentierung in folgende Tokenfolge adäquater:

Klaus-Rüdiger kauft in New York für $2.50 Fish'n'Chips

Literatur

Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde, Hagen Langer: Computerlinguistik und Sprachtechnologie. Eine Einführung. 3. Auflage. Spektrum Akademischer Verlag, Heidelberg 2010, ISBN 9783827420237, S. 264–271

Weblinks

http://www.nlp.org.cn/docs/20030724/resource/Tokenization.htm

Kategorien:
Computerlinguistik
Indexierung

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Text-Mining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
Textmining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
Textschürfung — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… … Deutsch Wikipedia
464 plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
464plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
6128 plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
6128plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
Amstrad 464 plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
Amstrad 464plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia
Amstrad 6128 Plus — Schneider CPC6128 Werbesticker der „Schneider Computer Division“ aus den 1990ern Die Amstrad CPC Serie, in Deutschland eher als Schneider CPC bekannt, war eine in den 1980er … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Tokenisierung

Probleme der Tokenisierung

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Tokenisierung

Probleme der Tokenisierung

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link