- Information Extraction
-
Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird.
Inhaltsverzeichnis
Informationsextraktion
Informationsextraktion kann aus zwei verschiedenen Perspektiven betrachtet werden. Einerseits als das Erkennen von bestimmten Informationen – so bezeichnet etwa Grishman IE als ”the automatic identification of selected types of entities, relations, or events in free text” (Grishman 2003) –, andererseits als das Entfernen der Informationen, die nicht gesucht werden. Letztere Sichtweise drückt etwa eine Definition von Cardie aus: ”An IE system takes as input a text and ’summarizes’ the text with respect to a prespecified topic or domain of interest” (Cardie 1997). In diesem Sinne könnte man Informationsextraktion auch als gezielte Textzusammenfassung bezeichnen (vgl. Euler 2001a, 2001b). Informationsextraktionssysteme sind also immer zumindest auf ein spezielles Fachgebiet, meist sogar auf bestimmte Interessengebiete (Szenarios) innerhalb eines allgemeineren Fachgebietes (Domäne) ausgerichtet. So wäre etwa in der Domäne ’Wirtschaftsnachrichten’ ein mögliches Szenario ’Personalwechsel in einer Managementposition’. Eine weitergehende Einschränkung macht Neumann, wenn er schreibt, dass das Ziel der IE ”die Konstruktion von Systemen” sei, ”die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können [...]” (Neumann 2001, Hervorhebung hinzugefügt). In diesem Zusammenhang ist zu beachten, dass eine solche Einschränkung Konsequenzen für die technische Realisierung eines Informationsextraktionssystems hat.
Abgrenzung von Nachbargebieten
Abzugrenzen ist das eigenständige Forschungsgebiet der Informationsextraktion von verwandten Gebieten: Textzusammenfassung hat eine umfassende Zusammenfassung des Inhaltes eines Textes zum Ziel (die umfassende automatische Textzusammenfassung ist insofern problematisch, als dass auch menschliche Leser bei der Aufgabe, das Wichtigste eines Textes zusammenzufassen, nie völlige Übereinstimmung erzielen werden, wenn nicht spezifiziert wurde, inwiefern die Informationen wichtig sein sollen). Textclustering bedeutet das selbstständige Gruppieren von Texten, Textklassifikation das Einordnen von Texten in vorgegebene Gruppen. Mit Information Retrieval kann die Suche nach Dokumenten in einer Dokumentenmenge (Volltextsuche) oder auch – entsprechend der wörtlichen Bedeutung – die allgemeiner formulierte Aufgabe des Abrufs von Informationen gemeint sein (vgl. Strube et al. 2001). Datenschürfung (data mining) bezeichnet ganz allgemein den “Prozess, Muster in Daten zu erkennen” (Witten 2000:3).
Anwendungsmöglichkeiten
Generell lassen sich zwei Arten der Anwendung von Informationsextraktion unterscheiden: Zum Einen können die extrahierten Daten sofort für einen menschlichen Betrachter gedacht sein. In diesen Anwendungsbereich fällt etwa das von Euler (2001a) zu Testzwecken entwickelte System, das aus E-Mails extrahierte Informationen als SMS weiterleitet, oder ein System, das in einer Suchmaschine zu den Treffern extrahierte Informationen anzeigt, etwa die angebotenen Positionen in Stellenanzeigen.
Zum Anderen können die Daten für die maschinelle Weiterverarbeitung gedacht sein, sei es zur Speicherung in Datenbanken, zur Textkategorisierung oder -klassifikation oder als Ausgangspunkt für eine umfassende Textzusammenfassung. Bestehen die gesuchten Informationen aus mehreren Einzelinformationen, bestimmt das Anwendungsgebiet gewisse Ansprüche an das Informationsextraktionssystem. So müssen zu einer maschinellen Weiterverarbeitung die Informationen strukturiert vorliegen, während für eine Weiterverarbeitung direkt durch den Menschen auch ein unstrukturiertes Ergebnis genügen kann.
Wenn die gesuchten Informationen nicht aus weiteren Einzelinformationen bestehen, wie bei der Erkennung von Eigennamen, ist eine solche Unterscheidung überflüssig.
Evaluationskriterien
Zur Bewertung (Evaluation) von Informationsextraktionssystemen werden die im Information Retrieval gebräuchlichen Kriterien Vollständigkeit (Recall) und Präzision (Precision) bzw. das aus diesen Werten ermittelte F-Maß verwendet. Ein weiteres Kriterium zur Bewertung der Güte des Extraktes ist der Anteil der unerwünschten Informationen (Fall-out).
Message Understanding Conferences
Die Entwicklung auf dem noch recht jungen Forschungsgebiet der Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences (MUC) vorangetrieben. Die sieben MUC wurden von 1987 bis 1997 von der ’Defense Advanced Research Projects Agency’ (DARPA) – der zentralen Forschungs- und Entwicklungseinrichtung des US-amerikanischen Verteidigungsministeriums – veranstaltet. Vorgegebene Szenarios waren Nachrichten über nautische Operationen (MUC-1 1987 und MUC-2 1989), über terroristische Aktivitäten (MUC-3 1991 und MUC-4 1992), Joint Ventures und Mikroelektronik (MUC-5 1993), Personalwechsel in der Wirtschaft (MUC-6 1995), sowie über Raumfahrzeuge und Raketenstarts (MUC-7 1997) (Appelt und Israel 1999). Da zur gemeinsamen Evaluation ein standardisiertes Ausgabeformat notwendig war, verwendete man ab der zweiten MUC eine gemeinsame Ausgabeschablone (Template), weshalb nahezu alle Informationsextraktionssysteme eine strukturierte Ausgabe der extrahierten Informationen leisten, eine Ausnahme hierzu bildet Euler (2001a, 2001b, 2002).
Zusammenfassung
Informationsextraktionssysteme können für verschiedene Aufgabenbereiche von der automatischen Analyse von Stellenanzeigen bis zur Vorbereitung einer allgemeinen Textzusammenfassung eingesetzt werden. Entsprechend diesen Anforderungen können die Systeme strukturierte oder unstrukturierte Ergebnisse liefern. Weiter können die Systeme völlig unterschiedliche linguistische Tiefe aufweisen, von der Extraktion durch gezielte Zusammenfassung (Euler 2001a, 2001b, 2002) mit reiner Satzfilterung, wo lediglich semantische Orientierung in Form der Wortliste gegeben ist, bis hin zu Systemen mit Analysemodulen für sämtliche Ebenen der Sprache (Phonologie, Morphologie, Syntax, Semantik, ev. auch Pragmatik). In einigen Bereichen führt unser mangelndes Verständnis für die Funktionsweise natürlicher Sprache zu einer Stagnation der Entwicklung, doch da Informationsextraktion eine eingeschränktere Aufgabe als ein komplettes Textverständnis darstellt, sind vielfach im Sinne eines ”appropriate language engineering” (Grishman 2003) den Anforderungen angemessene Lösungen (vielleicht auch gerade in Verbindung mit den Nachbargebieten) möglich. Als Beispiel hierfür möge das von Euler (2001a, 2001b, 2002) entworfene Verfahren dienen, das im Unterschied zu den die IE dominierenden Systemen lediglich unstrukturierte Ergebnisse liefert. Dafür erreicht es hohe Leistung nach F-Maß und verlangt lediglich einen geringen oder gar minimalen Annotierungsaufwand des Trainingskorpus, was eine hohe Portabilität auf neue Domänen und Szenarios bedeuten könnte, etwa in Form einer Erstellung von Wortlisten en passant bei einer Textklassifikation.
Literatur
- Appelt, Douglas; John Bear, Jerry Hobbs, David Israel, Megumi Kameyama, Mark Stickel, Mabry Tyson (1993) FASTUS: A Cascaded Finite-State Tranducer for Extracting Information from Natural-Language Text, Sri International. 11. Februar 2006: [1].
- Appelt, Douglas & David Israel (1999) Introduction to Information Extraction Technology. A Tutorial Prepared for IJCAI-99, SRI International. 11. Februar 2006: [2].
- Cardie, Claire (1997) ”Empirical Methods in Information Extraction” in AI Magazine, Vol. 18, 4, 65-68. 11. Februar 2006: [3].
- Cunningham, Hamish; Diana Maynard, Kalina Bontcheva, Valentin Tablan, Cristian Ursu, Marin Dimitrov (2003) Developing Language Processing Components with GATE (a User Guide), University of Sheffield. 11. Februar 2006: [4].
- Euler, Timm (2001a) Informationsextraktion durch Zusammenfassung maschinell selektierter Textsegmente, Universität Dortmund. 11. Februar 2006: [5].
- — (2001b) Informationsextraktion durch gezielte Zusammenfassung von Texten, Universität Dortmund. 11. Februar 2006: [6].
- — (2002) ”Tailoring Text using Topic Words: Selection and Compression” in Proceedings of the 13th International Workshop on Database and Expert Systems Applications (DEXA), IEEE Computer Society Press. 11. Februar 2006: [7].
- Grishman, Ralph; Silja Huttunen, Pasi Tapanainen, Roman Yangarber (2000) ”Unsupervised Discovery of Scenario-Level Patterns for Information Extraction” in Proceedings of the Conference on Applied Natural Language Processing ANLP-NAACL2000, Seattle. 282-289. 11. Februar 2006: [8].
- Grishman, Ralph (2003) ”Information Extraction” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 545-559.
- Mitkov, Ruslan (2003) ”Anaphora Resolution” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 267-283.
- Neumann, Günter (2001) ”Informationsextraktion” in Carstensen, Kai-Uwe et al. Computerlinguistik und Sprachtechnologie. Eine Einführung, Heidelberg, Berlin: Spektrum. 448-455.
- Strube, Gerhard u.a. (Hrsg.) (2001) Digitales Wörterbuch der Kognitionswissenschaft, Klett-Cotta.
- Witten, Ian & Eibe Frank (2000) Data Mining - Praktische Werkzeuge und Techniken für das maschinelle Lernen, Hanser.
- Xu, Feiyu; Hans Uszkoreit;Hong Li (2006) "Automatic Event and Relation Detection with Seeds of Varying Complexity", In Proceedings of AAAI 2006 Workshop Event Extraction and Synthesis, Boston, July, 2006.
- Xu, Feiyu; Hans Uszkoreit;Hong Li (2007) "A Seed-driven Bottom-up Machine Learning Framework for Extracting Relations of Various Complexity", In Proceedings of ACL 2007, Prague, June, 2007. [9].
Wikimedia Foundation.