Textgenerierung

Textgenerierung

Bei der Textgenerierung (auch: natürlichsprachliche Generierung, engl.: Natural Language Generation NLG) wird durch die Software eines Computers automatisch ein Text erstellt. Die Generierung von Texten ist als Teilbereich der Computerlinguistik eine besondere Form der Künstlichen Intelligenz.

Inhaltsverzeichnis

Generierungsprozess

Für den Generierungsprozess gibt es je nach verwendeter Methode und Blickwinkel unterschiedliche Beschreibungsmodelle und Fachausdrücke, ohne sich prinzipiell widersprechen zu müssen.

Nach E. Reiter[1] besteht die Architektur zur Generierung heute standardmäßig aus einem Textplaner, einem Satzplaner und einem Oberflächenrealisierer. Für das Verhältnis zwischen Textsegmenten bedient man sich der Theorie rhetorischer Strukturen, RST, um die Diskursrelationen[2] zu gestalten. Ein Text ist kohärent, wenn er durch einen Baum von rhetorischen Relationen und elementaren Texteinheiten dargestellt werden kann (RST: Mann, Thompson): Als Relationen zwischen Haupt- und Nebensätzen gelten folgende Bindeglieder: CAUSE, RESULT, ELABORATION, CONTRAST, SEQUENCE, LIST, CONCESSION und andere.

Nach M. Hess[3] benötigt die Generierung zwei Komponenten.

  • Die Strategische Komponente, was gesagt werden soll: Informationsauswahl, Inhaltswahl, Bereichsplanung. Diese Komponente verwendet in der Regel Such- und Planungsstrategien der Künstlichen Intelligenz.
  • Die Taktische Komponente, wie es gesagt werden soll: Die Planung der sprachlichen Form. Dabei wird oft eine auf den Generierungsaspekt zugeschnittene Grammatik verwendet.

Ulrich Gaudenz Müller entwickelte gemeinsam mit dem Germanisten und Computerlinguisten Raimund Drewek von 1981 bis 1999 ein System zur Textgenerierung, das SARA (Satz-Random-Generator) genannt wurde.

Textgenerierung aus Wissensbasen

„Voraussetzung für jegliche Art der Generierung ist, daß die als Text zu generierende Information als formale, computerlinguistisch verarbeitbare Information vorliegt, wie z. B. Informationen aus Datenbanken, oder Wissensrepräsentationen.” [4] Die Textgenerierung aus derartigen Wissensbasen gibt es in Varianten für verschiedene Aufgabenstellungen.

  • Schnittstelle zu Expertensystemen
  • Produktion technischer Dokumente in mehreren Sprachen aus einer Wissensbasis[5]
  • Automatische Generierung (von Wegbeschreibungen, Wetterberichten und Börsenberichten)[4][6]
  • Generierungskomponente von Dialogsystemen[4]

Anwendungen in der Alltagskultur

Wissensbasierte Software zur natürlichsprachigen Textgenerierung kann im Dialog gegenüber einem menschlichen Nutzer in begrenztem Maße Intelligenz simulieren (siehe oben, Künstliche Intelligenz). In einfacher Ausführung wird unmittelbar auf eine Texteingabe des Nutzers, unter Anwendung von Regeln und einer relativ simplen Wissensbasis eine Frage oder eine Antwort ausgegeben. Das bekannteste historische Beispiel, besonders in seiner Ausführung als Psychotherapeut, ist das Programm ELIZA, ein Chatbot.[7]

Ein Teil der Kommunikation mit hochentwickelten Intelligenten virtuellen Agenten beruht auf diesem Prinzip, wobei die Qualität des Dialogs unter Anderem von der Verknüpfung des Agenten mit Wissensbasen abhängt. Der Dialog eines Menschen mit verschiedenen Schnittstellen kann erleichtert werden, wenn ein Agent Text generiert, der Fragen produktiv beantwortet:

  • Beim Abrufen eines Informationsangebots, unter Anderem als Präsentationsagent einer Webseite (auch „Online Moderator” genannt)
  • Bei einem sprachfähigen Programm zur Wahl eines Beraters (oft für telefonisches Vorsortieren von Kunden genutzt)
  • Bei Dialogen mit Figuren in Computerspielen

Textgenerierung als kreatives Verfahren

Textgenerierung kann eine Komponente kreativer Verfahren in Kunst und Literatur sein[8]. Für längere Werke bieten komplett generierte Textkörper, ob sinnhaltig generiert oder erst durch die Nachbearbeitung mit Sinn versehen, keine literarische Qualität. Es stehen jedoch einige in der Kunst des vorigen Jahrhunderts und in der Zeitgenössischen Kunst bedeutende künstlerische Verfahren Digitaler Poesie in Beziehung zur Textgenerierung.

Verfahren und Anwendungen in Bildender Kunst und Literatur

  • Eingriffe in die generierende Software oder die Wissensbasis (künstlerische und literarische Experimente). Beispiel (nach Reinhard Döhl): Max Bense und seine Stuttgarter Gruppe benutzten 1959 eine Zuse Z22 um "mit Hilfe eines eingegebenen Lexikons und einer Anzahl von syntaktischen Regeln Texte zu synthetisieren und auszugeben"[9].
  • Nachbearbeitung oder Einbau generierten Textes durch Autoren (Literatur).[10]
  • Dialog mit Publikum (beispielsweise in Kunstinstallationen. Beispiel: David Link, Poetry Machine[11]

Textgenerierung durch Phrasendreschmaschine

Phrasendreschmaschinen oder Bullshit-Generatoren (engl. bullshit generators, auch buzzword generators) gab es vor der Umsetzung in Software als mechanische Geräte. Wahrscheinlich die erste als Software ausgeführte Phrasendreschmaschine war LoveLetters_1.0, 1952 programmiert von Christopher Strachey an der University of Manchester für den Ferranti Mark I.[12] Ähnliche Generatoren sind in vielen weiter entwickelten Ausführungen im WWW zu finden.

Solche Programme arbeiten nach einfachen Konzepten, die bei anspruchsvolleren Verfahren der Textgenerierung komplexer ausgestaltet angewendet werden: Begriffe oder Satzteile werden aus Listen entnommen, aneinandergereiht und grammatikalisch korrekt angepasst (grammatische Realisierung). Ein dafür oft angewendetes Verfahren ist die Generierung mit Markov-Ketten (auch Markow-)[13]. Es entsteht syntaktisch korrekter Text, der sinnhaltig wirken kann, tatsächlich aber Blödsinn (englisch: bullshit) ist, weil Phrasendreschmaschinen nicht auf Wissen über die Bedeutung verwendeter Partikel zugreifen. So lässt sich scherzhaft beispielsweise die leere Rhetorik von Fachliteratur persiflieren.

Geschichte

Abgesehen von mechanischen Phrasendreschmaschinen als Vorläufern und abgesehen von frühesten Versuchen, Texte durch Software zu generieren, beginnt die erste Phase natürlichsprachiger Generierung mit Programmen, die zur Textgenerierung schematisch auf Wissen zugreifen, das bereits in Textform abgelegt ist. So funktionierte ab 1963 BASEBALL, ein Interface zu den Baseballdaten der amerikanischen Baseballiga und SAD SAM, ein Interface zur Eingabe von Verwandtschaftsbeziehungen, das bereits auf Fragen antwortete. Nach mehreren anderen Arbeiten in dieser Richtung erschien 1966 ELIZA, programmiert von Joseph Weizenbaum. In der zweiten Phase ist das Wissen in Fakten und Regeln kodiert: LUNAR, 1972, ist das Interface zur Datenbank über die Mondprobensammlung der Apollo 11 Mission. PARRY, 1975, simuliert einen Paranoiden in Gespräch mit einem Psychiater. ROBOT, 1977, ist das erste kommerzielles Frage-Antwort-System. VIE-LANG, 1982, von Ernst Buchberger, ist ein Dialogsystem in deutscher Sprache, das Sätze aus einem semantischen Netz generiert[14]. HAM-ANS, 1983, von Wolfgang Hoeppner, ist ein Dialogsystem in deutscher Sprache, das beispielsweise einen Hotelmanager simuliert.[15]

Siehe auch

Literatur

  • Ehud Reiter: Has a consensus NL generation architecture appeared, and is it psychologically plausible? in: McDonald, D. and Meteer, M. (Hrsg.) Proceedings of the 7th. International Workshop on Natural Language generation (INLGW ’94), 1994 S. 163-170
  • Helmut Horacek: Textgenerierung in: Kai-Uwe Carstensen, Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg: Spektrum Akademischer Verlag, 3. Auflage, 2010, ISBN 978-3827420237 S. 436-465
  • John Bateman: Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme in: Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. s. o. Heidelberg 2010 S. 633-641
  • Rico Schwank: Analyse von Konzepten und Methoden zur Generierung von natürlichsprachlichen Texten aus formalen Daten Diplomarbeit. Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik[16]

Weblinks

Einzelnachweise

  1. Ehud Reiter: [www.aclweb.org/anthology/W/W94/W94-0319.pdf Has a consensus NL generation architecture appeared, and is it psychologically plausible? in: Proceedings of the 7th. International Workshop on Natural Language generation (INLGW ’94).] McDonald, D. and Meteer, M., 1994, S. 163-170, abgerufen am 26. März 2010 (PDF, englisch).
  2. Projekt KIT-MARKER. Technische Universität Berlin, 1997, S. 1,3, abgerufen am 13. März 2010.
  3. Michael Hess: Einführung in die Computerlinguistik (I). Universität Zürich, Institut für Computerlinguistik, 2005, S. 44,4 f, abgerufen am 26. März 2010 (PDF).
  4. a b c Wiebke Ramm und Claudia Villiger: Wissenschaftliche Textproduktion und Fachdomäne. Sprachliche Realisierung wissenschaftlicher Inhalte in verschiedenen Fachdisziplinen und ihre computerlinguistische Modellierung. In: Knorr, Dagmar/ Jakobs, Eva-Maria (Hrsg.): Textproduktion in elektronischen Umgebungen. Textproduktion und Medien Bd. 2, Lang Verlag, Frankfurt/Main 1997, ISBN 3-631-30970-8, S. 214,2 (http://docs.google.com/viewer?a=v&q=cache:Z4T6TSND-wEJ:www.prowitec.rwth-aachen.de/p-publikationen/band-pdf/band2/band2_ramm_villiger.pdf+Wiebke+Ramm+und+Claudia+Villiger&hl=de&gl=de&sig=AHIEtbQcqS4fma8MCM-M3hTeek4QpcwtRQ, abgerufen am 15. März 2010).
  5. Susanne Göpferich, Dr. phil., Dipl.-Übers.: Der Technische Redakteur als Global Player: Berufspraxis und Anforderungen an die Ausbildung der Zukunft. Fachzeitschrift Technische Dokumentation 2000/05, 19.Dezember 2003, S. 1,7, abgerufen am 14. März 2010: „Ein multilinguales Generierungssystem, das mit den entsprechenden textsortenspezifischen Vertextungsregeln ausgestattet ist, kann diese verschiedenen Textsorten zum selben Produkt jeweils aus einer einzigen Wissensbasis heraus generieren.“
  6. Stats Monkey. Intelligent Information Laboratory - Northwestern University, 2009, abgerufen am 24. März 2010 (englisch).
  7. Josef Karner: Mailüfterl, Al Chorezmi und Künstliche Intelligenz: Ein Gespräch mit dem Computerpionier Heinz Zemanek. Telepolis, 8.August 1999, S. 1, abgerufen am 20. März 2010 (Frage 20 ff): „Weizenbaum hat aber nicht Intelligenz oder gar Bewusstsein erschaffen, sondern gezeigt, mit welch einfachen Mitteln man einen Betrachter glauben machen kann, er hätte es mit Intelligenz zu tun.“
  8. Roberto Simanowski: Automatisches Schreiben. X C U L T, abgerufen am 15. März 2010 (Referat bei der Fachtagung Narrationen in der Medienkunst).
  9. Reinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 5).
  10. Reinhard Doehl: Der Kreis um Max Bense. Abgerufen am 16. März 2010 (Abteilung: Künstliche Poesie, Abschnitt 6).
  11. Miriam Stürner: David Link, Poetry Machine (version 1.0), 2001-2002. ZKM, Zentrum für Kunst und Medientechnologie Karlsruhe, abgerufen am 15. März 2010.
  12. David Link: LoveLetters_1.0. MUC=Resurrection. A Memorial. Abgerufen am 15. März 2010.
  13. Andreas Stuhlmüller: Texten mit Markov. 14. Februar 2005, abgerufen am 24. März 2010.
  14. VIE-GEN. NLG Systems Wiki, 17. November 2009, abgerufen am 15.März 2010 (englisch).
  15. Jörg Roth:: Einführung in natürlichsprachliche Textgenerierung. 1989, abgerufen am 14.März 2010.
  16. Rico Schwank: Analyse von Methoden zur Generierung natürlichsprachlicher Texte aus formalen Daten. Otto-von-Guericke-Universität Magdeburg, abgerufen am 13. März 2010.

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Ulrich Gaudenz Müller — (* 18. Oktober 1922 in Winterthur; † April 2005 in Zürich Höngg) ist ein Schweizer Pionier der Computerlinguistik. Gemeinsam mit dem Germanisten und Computerlinguisten Raimund Drewek gelang ihnen bereits 1981 bis 1999 die Entwicklung eines… …   Deutsch Wikipedia

  • Datenbank — Ein Datenbanksystem (DBS) ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern und benötigte Teilmengen in unterschiedlichen,… …   Deutsch Wikipedia

  • Rhetorical Structure Theory — Die Theorie rhetorischer Strukturen oder oft noch englisch Rhetorical Structure Theory ist eine Theorie zur Darstellung der rhetorischen Struktur in Texten. Sie wurde von William Mann, Sandra Thompson u. a. im Rahmen von Studien zur automatischen …   Deutsch Wikipedia

  • Rhetorical Structure Theory (RST) — Die Theorie rhetorischer Strukturen oder oft noch englisch Rhetorical Structure Theory ist eine Theorie zur Darstellung der rhetorischen Struktur in Texten. Sie wurde von William Mann, Sandra Thompson u. a. im Rahmen von Studien zur automatischen …   Deutsch Wikipedia

  • Sara — ist: Sara (Name), weiblicher Vorname – dort auch unterschiedliche Schreibweisen Sara (Volk) in Afrika im Süden des Tschad, zu dem verschiedene Volksgruppen gezählt werden, Sara (Sprache, Afrika), Gruppe von rund 15 Sprachen der nilo saharanischen …   Deutsch Wikipedia

  • Turing-Galaxis — bezeichnet eine Welt, die grundlegend vom vernetzten Computer als Leitmedium geprägt ist, analog zu Marshall McLuhans Gutenberg Galaxis. Inhaltsverzeichnis 1 Entstehung des Begriffs 2 Verwandte Begriffe aus der Vorgeschichte 2.1 …   Deutsch Wikipedia

  • IFB142 — H. J. Novak: Textgenerierung aus visüllen Daten: Beschreibung von Strassenszenen, 1987 …   Acronyms

  • IFB142 — H. J. Novak: Textgenerierung aus visüllen Daten: Beschreibung von Strassenszenen, 1987 …   Acronyms von A bis Z

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”