Informationsextraktion

Informationsextraktion

Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen maschinellen Verarbeitung von unstrukturierter Information mit dem Ziel, Wissen bezüglich einer im Vorhinein definierten Domäne zu gewinnen. Ein typisches Beispiel ist die Extraktion von Informationen über Firmenzusammenschlüsse (engl. merger events), wobei etwa aus Online-Nachrichten Instanzen der Relation merge(Firma1, Firma2, Datum) extrahiert werden. Der Informationsextraktion kommt eine große Bedeutung zu, da viele Informationen in unstrukturierter (nicht relational modellierter) Form vorliegen, zum Beispiel im Internet, und dieses Wissen durch Informationsextraktion besser erschließbar wird.

Inhaltsverzeichnis

Informationsextraktion

Informationsextraktion kann aus zwei verschiedenen Perspektiven betrachtet werden. Einerseits als das Erkennen von bestimmten Informationen – so bezeichnet etwa Grishman IE als ”the automatic identification of selected types of entities, relations, or events in free text” (Grishman 2003) –, andererseits als das Entfernen der Informationen, die nicht gesucht werden. Letztere Sichtweise drückt etwa eine Definition von Cardie aus: ”An IE system takes as input a text and ’summarizes’ the text with respect to a prespecified topic or domain of interest” (Cardie 1997). In diesem Sinne könnte man Informationsextraktion auch als gezielte Textzusammenfassung bezeichnen (vgl. Euler 2001a, 2001b). Informationsextraktionssysteme sind also immer zumindest auf ein spezielles Fachgebiet, meist sogar auf bestimmte Interessengebiete (Szenarios) innerhalb eines allgemeineren Fachgebietes (Domäne) ausgerichtet. So wäre etwa in der Domäne ’Wirtschaftsnachrichten’ ein mögliches Szenario ’Personalwechsel in einer Managementposition’. Eine weitergehende Einschränkung macht Neumann, wenn er schreibt, dass das Ziel der IE ”die Konstruktion von Systemen” sei, ”die gezielt domänenspezifische Informationen aus freien Texten aufspüren und strukturieren können [...]” (Neumann 2001, Hervorhebung hinzugefügt). In diesem Zusammenhang ist zu beachten, dass eine solche Einschränkung Konsequenzen für die technische Realisierung eines Informationsextraktionssystems hat.

Abgrenzung von Nachbargebieten

Abzugrenzen ist das eigenständige Forschungsgebiet der Informationsextraktion von verwandten Gebieten: Textzusammenfassung hat eine umfassende Zusammenfassung des Inhaltes eines Textes zum Ziel (die umfassende automatische Textzusammenfassung ist insofern problematisch, als dass auch menschliche Leser bei der Aufgabe, das Wichtigste eines Textes zusammenzufassen, nie völlige Übereinstimmung erzielen werden, wenn nicht spezifiziert wurde, inwiefern die Informationen wichtig sein sollen). Textclustering bedeutet das selbstständige Gruppieren von Texten, Textklassifikation das Einordnen von Texten in vorgegebene Gruppen. Mit Information Retrieval kann die Suche nach Dokumenten in einer Dokumentenmenge (Volltextsuche) oder auch – entsprechend der wörtlichen Bedeutung – die allgemeiner formulierte Aufgabe des Abrufs von Informationen gemeint sein (vgl. Strube et al. 2001). Data-Mining bezeichnet ganz allgemein den “Prozess, Muster in Daten zu erkennen” (Witten 2000:3).

Anwendungsmöglichkeiten

Generell lassen sich zwei Arten der Anwendung von Informationsextraktion unterscheiden: Zum Einen können die extrahierten Daten sofort für einen menschlichen Betrachter gedacht sein. In diesen Anwendungsbereich fällt etwa das von Euler (2001a) zu Testzwecken entwickelte System, das aus E-Mails extrahierte Informationen als SMS weiterleitet, oder ein System, das in einer Suchmaschine zu den Treffern extrahierte Informationen anzeigt, etwa die angebotenen Positionen in Stellenanzeigen.

Zum Anderen können die Daten für die maschinelle Weiterverarbeitung gedacht sein, sei es zur Speicherung in Datenbanken, zur Textkategorisierung oder -klassifikation oder als Ausgangspunkt für eine umfassende Textzusammenfassung. Bestehen die gesuchten Informationen aus mehreren Einzelinformationen, bestimmt das Anwendungsgebiet gewisse Ansprüche an das Informationsextraktionssystem. So müssen zu einer maschinellen Weiterverarbeitung die Informationen strukturiert vorliegen, während für eine Weiterverarbeitung direkt durch den Menschen auch ein unstrukturiertes Ergebnis genügen kann.

Wenn die gesuchten Informationen nicht aus weiteren Einzelinformationen bestehen, wie bei der Erkennung von Eigennamen, ist eine solche Unterscheidung überflüssig.

Evaluationskriterien

Zur Bewertung (Evaluation) von Informationsextraktionssystemen werden die im Information Retrieval gebräuchlichen Kriterien Vollständigkeit und Präzision (Recall und Precision) bzw. das aus diesen Werten ermittelte F-Maß verwendet. Ein weiteres Kriterium zur Bewertung der Güte des Extraktes ist der Anteil der unerwünschten Informationen (Fall-out).

Message Understanding Conferences

Die Entwicklung auf dem noch recht jungen Forschungsgebiet der Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences (MUC) vorangetrieben. Die sieben MUC wurden von 1987 bis 1997 von der ’Defense Advanced Research Projects Agency’ (DARPA) – der zentralen Forschungs- und Entwicklungseinrichtung des US-amerikanischen Verteidigungsministeriums – veranstaltet. Vorgegebene Szenarios waren Nachrichten über nautische Operationen (MUC-1 1987 und MUC-2 1989), über terroristische Aktivitäten (MUC-3 1991 und MUC-4 1992), Joint Ventures und Mikroelektronik (MUC-5 1993), Personalwechsel in der Wirtschaft (MUC-6 1995), sowie über Raumfahrzeuge und Raketenstarts (MUC-7 1997) (Appelt und Israel 1999). Da zur gemeinsamen Evaluation ein standardisiertes Ausgabeformat notwendig war, verwendete man ab der zweiten MUC eine gemeinsame Ausgabeschablone (Template), weshalb nahezu alle Informationsextraktionssysteme eine strukturierte Ausgabe der extrahierten Informationen leisten, eine Ausnahme hierzu bildet Euler (2001a, 2001b, 2002).

Zusammenfassung

Informationsextraktionssysteme können für verschiedene Aufgabenbereiche von der automatischen Analyse von Stellenanzeigen bis zur Vorbereitung einer allgemeinen Textzusammenfassung eingesetzt werden. Entsprechend diesen Anforderungen können die Systeme strukturierte oder unstrukturierte Ergebnisse liefern. Weiter können die Systeme völlig unterschiedliche linguistische Tiefe aufweisen, von der Extraktion durch gezielte Zusammenfassung (Euler 2001a, 2001b, 2002) mit reiner Satzfilterung, wo lediglich semantische Orientierung in Form der Wortliste gegeben ist, bis hin zu Systemen mit Analysemodulen für sämtliche Ebenen der Sprache (Phonologie, Morphologie, Syntax, Semantik, ev. auch Pragmatik). In einigen Bereichen führt unser mangelndes Verständnis für die Funktionsweise natürlicher Sprache zu einer Stagnation der Entwicklung, doch da Informationsextraktion eine eingeschränktere Aufgabe als ein komplettes Textverständnis darstellt, sind vielfach im Sinne eines ”appropriate language engineering” (Grishman 2003) den Anforderungen angemessene Lösungen (vielleicht auch gerade in Verbindung mit den Nachbargebieten) möglich. Als Beispiel hierfür möge das von Euler (2001a, 2001b, 2002) entworfene Verfahren dienen, das im Unterschied zu den die IE dominierenden Systemen lediglich unstrukturierte Ergebnisse liefert. Dafür erreicht es hohe Leistung nach F-Maß und verlangt lediglich einen geringen oder gar minimalen Annotierungsaufwand des Trainingskorpus, was eine hohe Portabilität auf neue Domänen und Szenarios bedeuten könnte, etwa in Form einer Erstellung von Wortlisten en passant bei einer Textklassifikation.

Literatur

  • Appelt, Douglas; John Bear, Jerry Hobbs, David Israel, Megumi Kameyama, Mark Stickel, Mabry Tyson (1993) FASTUS: A Cascaded Finite-State Tranducer for Extracting Information from Natural-Language Text, Sri International. 11. Februar 2006: [1].
  • Appelt, Douglas & David Israel (1999) Introduction to Information Extraction Technology. A Tutorial Prepared for IJCAI-99, SRI International. 11. Februar 2006: [2].
  • Cardie, Claire (1997) ”Empirical Methods in Information Extraction” in AI Magazine, Vol. 18, 4, 65-68. 11. Februar 2006: [3].
  • Cunningham, Hamish; Diana Maynard, Kalina Bontcheva, Valentin Tablan, Cristian Ursu, Marin Dimitrov (2003) Developing Language Processing Components with GATE (a User Guide), University of Sheffield. 11. Februar 2006: [4].
  • Euler, Timm (2001a) Informationsextraktion durch Zusammenfassung maschinell selektierter Textsegmente, Universität Dortmund. 11. Februar 2006: [5].
  • — (2001b) Informationsextraktion durch gezielte Zusammenfassung von Texten, Universität Dortmund. 11. Februar 2006: [6].
  • — (2002) ”Tailoring Text using Topic Words: Selection and Compression” in Proceedings of the 13th International Workshop on Database and Expert Systems Applications (DEXA), IEEE Computer Society Press. 11. Februar 2006: [7].
  • Grishman, Ralph; Silja Huttunen, Pasi Tapanainen, Roman Yangarber (2000) ”Unsupervised Discovery of Scenario-Level Patterns for Information Extraction” in Proceedings of the Conference on Applied Natural Language Processing ANLP-NAACL2000, Seattle. 282-289. 11. Februar 2006: [8].
  • Grishman, Ralph (2003) ”Information Extraction” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 545-559.
  • Mitkov, Ruslan (2003) ”Anaphora Resolution” in Mitkov, Ruslan et al., The Oxford Handbook of Computational Linguistics, Oxford University Press. 267-283.
  • Neumann, Günter (2001) ”Informationsextraktion” in Carstensen, Kai-Uwe et al. Computerlinguistik und Sprachtechnologie. Eine Einführung, Heidelberg, Berlin: Spektrum. 448-455.
  • Strube, Gerhard u.a. (Hrsg.) (2001) Digitales Wörterbuch der Kognitionswissenschaft, Klett-Cotta.
  • Witten, Ian & Eibe Frank (2000) Data Mining - Praktische Werkzeuge und Techniken für das maschinelle Lernen, Hanser.
  • Xu, Feiyu; Hans Uszkoreit;Hong Li (2006) "Automatic Event and Relation Detection with Seeds of Varying Complexity", In Proceedings of AAAI 2006 Workshop Event Extraction and Synthesis, Boston, July, 2006.
  • Xu, Feiyu; Hans Uszkoreit;Hong Li (2007) "A Seed-driven Bottom-up Machine Learning Framework for Extracting Relations of Various Complexity", In Proceedings of ACL 2007, Prague, June, 2007. [9].

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Wrapper (Informationsextraktion) — Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf… …   Deutsch Wikipedia

  • Information Extraction — Unter Informationsextraktion (engl. Information Extraction, IE) versteht man die ingenieursmäßige Anwendung von Verfahren aus der praktischen Informatik, der künstlichen Intelligenz und der Computerlinguistik auf das Problem der automatischen… …   Deutsch Wikipedia

  • Text-Mining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Text Mining — Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Analyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un oder schwachstrukturierten Textdaten ermöglichen soll …   Deutsch Wikipedia

  • Textmining — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Textschürfung — Der Begriff Text Mining (engl. für „Textschürfen“) bezeichnet die automatisierte Entdeckung relevanter Informationen aus Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text Mining Software aus Texten Informationen, die die… …   Deutsch Wikipedia

  • Textklassifikation — Die Textklassifikation ist ein sehr wichtiges Kriterium im Bereich der Informationsextraktion. Bei unterschiedlich strukturierten Texten werden verschiedene Verfahren angewendet, die sich voneinander durch Merkmale wie Komplexität, Restriktionen… …   Deutsch Wikipedia

  • Angewandte Sprachwissenschaft — Die Angewandte Linguistik, auch als Angewandte Sprachwissenschaft bezeichnet, ist ein Teilgebiet der Allgemeinen Sprachwissenschaft. Sie beschäftigt sich interdisziplinär mit der Sprachlernforschung, der Sprachbeschreibung (Lexikographie) sowie… …   Deutsch Wikipedia

  • Computer Science — Informatik ist die Wissenschaft von der systematischen Verarbeitung von Informationen, insbesondere der automatischen Verarbeitung mit Hilfe von Rechenanlagen. Historisch hat sich die Informatik als Wissenschaft aus der Mathematik entwickelt,… …   Deutsch Wikipedia

  • Computerlinguisten — In der Computerlinguistik wird untersucht, wie natürliche Sprache mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Teilbereich der Künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”