- Text-Mining
-
Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Informationen, die die Benutzer in die Lage versetzen soll, ihr Wissen zu erweitern. Text-Mining-Systeme liefern im Optimalfall Informationen bzw. Zusammenhänge, von denen Benutzer bisher nicht wussten, dass sie existieren. Im Zusammenspiel mit ihren Anwendern sind Werkzeuge des Textminings außerdem dazu in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern. Textmining zählt deshalb auch zu den Verfahren der explorativen Datenanalyse.
Inhaltsverzeichnis
Begriff
In Anlehnung an Data Mining bzw. KDD ist Text Mining (dt. „Textschürfung“) der nicht triviale Prozess der Wissensentdeckung in textuellen Daten bzw. eine zielorientierte Form der Textanalyse, die eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglicht. Umfassender kann Text Mining als ein Prozess der Zusammenstellung, Organisation und Analyse großer Dokumentsammlungen zur bedarfsgerechten Extrahierung von Informationen und der Entdeckung versteckter Beziehungen zwischen Texten und Textfragmenten gesehen werden. Neben der Bezeichnung Text Mining finden sich in der Literatur die Begriffe „Text Data Mining“, „Textual Data Mining“, „Text Knowledge Engineering“, „Knowledge discovery in Texts“ und „Knowledge Discovery in Textual Databases“.
Abgrenzung zu anderen texttechnologischen Verfahren
Textmining ähnelt einigen anderen texttechnologischen Verfahren, sollte von diesen aber abgegrenzt werden:
- Verfahren der Informationserschließung (Information Retrieval, IR) liefern auf eine Suchanfrage aus einer Dokumentensammlung diejenigen Dokumente zurück, die für die Beantwortung der Frage relevant sind. Im Gegensatz zum Textmining werden also nicht einzelne Informationen oder Fakten erschlossen, sondern ganze Dokumente.
- Verfahren der Informationsextraktion (engl. Information Extraction, IE) zielen darauf, aus Texten einzelne Fakten zu extrahieren und diese in einem Schema zu präsentieren, z. B. Fakten über Attentate mit terroristischem Hintergrund oder über Firmenzusammenschlüsse. Im Gegensatz zum Textmining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden - der Benutzer weiß, was er nicht weiß.
- Frage-Antwort-Systeme präsentieren Benutzern Ausschnitte aus Textdatenbanken, die am besten dazu geeignet sind, eine konkrete Wissensfrage zu beantworten, z. B. danach, wie die Hauptstadt von Liberia heißt. Diese Systeme gehen bei Ihrer Analyse aber nicht über die in der Textdatenbank explizit vorhandenen Daten hinaus.
- Verfahren des automatischen Zusammenfassens von Texten (Summarizing) erzeugen ein Kondensat von einem Text oder einer Textsammlung, jedoch ebenfalls ohne über das in den Texten explizit Vorhandene hinauszugehen.
- Am ehesten ist das Textmining dem Data-Mining vergleichbar. Mit diesem teilt das Textmining viele Verfahren, nicht jedoch den Gegenstand. Datamining-Verfahren operieren auf stark strukturierten Daten, die z. B. in relationalen Datenbanken gespeichert sind. Textmining-Verfahren hingegen operieren auf Texten, die als unstrukturierte oder schwach strukturierte Daten bezeichnet werden. Ein gängiges Verfahren des Textmining ist es, in einem ersten Schritt die unstrukturierten Textdaten in eine strukturierte Form zu bringen, die ihre Erschließung mit Verfahren des Datamining erlaubt. Hierfür ist sowohl eine strukturelle als auch eine linguistische Analyse der Texte notwendig.
- Web Mining, insbesondere Web Content Mining ist ein wichtiges Anwendungsgebiet für Text Mining.
Ziele
Aufgrund widersprüchlicher Literatur und nicht vereinheitlichtem Forschungsgegenstand entwickeln Mehler und Wolff vier Perspektiven auf das Text Mining:
- Information Retrieval (IR) Perspektive: Verbesserung des IR durch Textzusammenfassung und Informationsextraktion
- Data Mining-Perspektive: Text Mining als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.
- Methodische Perspektive: Text Mining als „eine Menge von Methoden zur (halb-)automatischen Auswertung großer Mengen natürlich-sprachlicher Texte“
- Wissensorientierte Perspektive: Abgrenzung der korpusanalytischen Computerlinguistik und des inhaltsbasierten IR vom Text Mining. Text Mining als textbasierte Datenanalyse zur Exploration von „bisher unbekannter“, „nie zuvor gesehenen“ Information.
Linguistische Analyse von Texten
Eine der größten Herausforderungen des Textmining liegt darin, die Bedeutung aus natürlichsprachlichen Texten zu erschließen. Diese Aufgabe wird dadurch erschwert, dass einerseits einzelne Wörter und Phrasen mehrdeutig sein können (Polysemie) und andererseits dieselbe Bedeutung durch verschiedene Wörter und Phrasen ausgedrückt werden kann (Synonymie). Textmining setzt daher die linguistische Erschließung der Texte voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten:
- Zunächst muss ein Text in Sätze, Phrasen und Wörter zerlegt werden (Tokenisierung).
- Die Phrasen und Wörter müssen linguistisch klassifiziert werden (Part-of-speech Tagging; siehe auch Wortart).
- Die grammatische Struktur von Sätzen muss ermittelt werden (mit einem Parser), was eine morphologische Analyse einschließen kann.
- Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
- Eigennamen (named entities) für Personen, Orte, von Firmen, Staaten usw. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
- Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
- Einige Wörter und Phrasen können einem Fachgebiet zugeordnet werden (Termextraktion).
- Die Bedeutungsbeziehungen zwischen einzelnen Wörtern und Phrasen muss erkannt werden. Auf diese Weise können unterschiedliche Formulierungen eines Sachverhalts (Synonymie, Hyperonymie) erkannt und einander zugeordnet werden.
Zur Lösung dieser Aufgaben gibt es heute zum Teil verlässliche und einfach implementierbare Verfahren, zum Teil ist die zufrieden stellende automatische Lösung dieser Aufgaben Gegenstand der Forschung. Computerlinguistische Verfahren, die diese Aufgaben lösen sollen, benötigen kodiertes Wissen verschiedener Art, z. B.
- Wörterbücher, in denen die Wortart(en) und Bedeutung(en) von Wörtern und Phrasen registriert sind,
- Ontologien, die darüber hinaus den spezifischen Wortschatz eines Fachgebiets und die Beziehungen zwischen den Fachwörtern kodieren,
- Listen von Eigennamen, z. B. für Länder, Städte, Firmen,
- Listen von häufig verwendeten Abkürzungen.
Diese Ressourcen sind für jede Sprache und teilweise für jedes Fachgebiet neu zu erstellen. Ihre Erstellung ist zeitaufwendig und kostenintensiv. Die Computerlinguistik ist deshalb bestrebt, den Bedarf an solchen externen Informationen so gering wie möglich zu halten und die vorhandenen Daten wiederzuverwenden.
Nach dem heutigen Stand der Technik werden die linguistisch analysierten Textdaten annotiert. Dies geschieht so, dass jeder textuellen Einheit die linguistischen Beschreibungen zugeordnet werden. XML ist eine hierfür besonders gut geeignete Annotationssprache. Den Texten als Ganzes können darüber hinaus Metadaten zugeordnet werden.
Verfahren
Auf der Grundlage dieser zumindest partiell analysierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen. Diese Verfahren sollen:
- In Texten implizit vorhandene Informationen explizit machen
- Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.
Hierzu werden Methoden der explorativen Datenanalyse und des logischen Schließens verwendet. Eine große Rolle bei der Entwicklung solcher Verfahren spielt das maschinelle Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.
Zwei Beispiele:
- Eine Menge von Dokumenten wird in einen hochdimensionalen Vektorraum (100.000 Dimensionen und mehr) von Termen und Termhäufigkeiten überführt. Die so entstandene Matrix wird durch Singulärwertzerlegung in eine niederdimensionale Matrix zerlegt (mit mehreren Hundert Dimensionen). Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.
- In Anlehnung an Verfahren des Datamining kann in Texten nach (lexikalischen) Assoziationen gesucht und diese nach ihrer Stärke bewertet werden. So lässt sich z. B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.
Ein weiterer wichtiger Schritt, der nach der Analyse der Daten erfolgen muss, ist die Präsentation oder Visualisierung der Ergebnisse. So wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen.
Anwendungen
Eine der am weitesten entwickelten Textmining-Infrastrukturen ist Webfountain, das von IBM entwickelt wurde. Webfountain stellt Speicherplatz, Rechenzeit, Daten und Textmining-Methoden zur Verfügung. Dienstleister, die diese Infrastruktur gegen Lizenzgebühren nutzen, können auf dieser Basis avancierte Informationsdienstleistungen für Firmenkunden, in Zukunft vielleicht auch für Privatkunden, anbieten. Die meisten Anwendungen versuchen dabei, aus den Daten Muster und Trends herauszudestillieren. Zu den geplanten und zum Teil schon realisierten Anwendungen gehören:
- Ein Dienst, der die Entwicklung der Reputation von Firmen und Produkten auf Grund einschlägiger Diskussionsbeiträge in Newsgroups, Weblogs usw. verfolgt;
- Ein Dienst, der im Auftrag von Banken Versuche von Geldwäsche ermittelt;
- Eine Suchmaschine für Informationen aus dem Finanzsektor, die thematisch einschlägige Artikel identifizieren und thematische Entwicklungen verfolgen kann.
- Ein Dienst, der ermittelt, ob bestimmte pharmazeutische Produktentwicklungen bereits stattgefunden haben und ob diese Versuche erfolgreich waren bzw. warum sie scheiterten.
- Überwachung von Firmeninternen Netzwerken "Extrusion prevention" - um sicherzustellen, dass keine geheimen Daten die Firma verlassen.
- Geheimdienstliche Überwachung von Medien, Staaten, Minderheiten und anderen Personengruppen
- Spamchecker: Software die Werbungsmails von sinnvollen bzw. erwünschten Zusendungen unterscheiden kann.
- Suchmaschinen für Nachforschungen jeglicher Art: Das Informationsangebot via Internet, Radio, Fernsehen, Zeitschriften und sonstigen in digitaler Form vorhandenen Daten ist bei weitem unüberschaubar. Software die diese durcharbeitet und die jeweils gesuchte Information aufbereitet und darstellt wird immer wichtiger.
Literatur
- Gerhard Heyer, Uwe Quasthof, Thomas Wittig: Text Mining: Wissensrohstoff Text -- Konzepte, Algorithmen, Ergebnisse, W3L Verlag, Herdecke, Bochum, 2006, ISBN 3-937137-30-0.
- Mehler, Alexander und Wolff, Christian (2005), Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland.
- Spiliopoulou, Myra und Winkler, Karsten, (2002), Text Mining auf Handelsregistereinträgen: Der SAS Enterprise Miner im Einsatz, in: Wilde, Klaus; Hippner, Hajo und Merzenich, Melanine (Herausgeber), Data Mining: Mehr Gewinn aus Ihren Kundendaten, Verlagsgruppe Handelsblatt, Düsseldorf, Deutschland, Seite 117-124.
- Mehler, Alexander: Textmining in Lemnitzer, Lothar/Lobin, Henning (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen, 2004, S. 329-352 ISBN 3-8605-7287-3.
- Franke, Jürgen und Nakhaeizadeh, Gholamreza und Renz, Ingrid (Editoren): Text Mining -- Theoretical Aspects and Applications, Physica-Verlag, Berlin, 2003.
- Feldman, Ronen und Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 0521836573.
- Buch, Bastian: Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten, VDM Verlag, 2008, ISBN 3836495503
Weblinks
Wikimedia Foundation.