- Text Engineering Software Laboratory
-
Tesla Entwickler Universität zu Köln Betriebssystem plattformunabhängig Programmiersprache Java Kategorie Natural language processing Lizenz Eclipse Public License tesla.spinfo.uni-koeln.de Tesla (Text Engineering Software Laboratory, deutsch Labor zur Verarbeitung von Texten) ist eine Software, mit der reproduzierbare Experimente auf textuellen Daten durchgeführt werden können. Als textuelle Daten gelten dabei alle Arten von Daten, die sich durch eine Sequenz diskreter Einheiten darstellen lassen.
Tesla wird seit 2005 am Institut für Linguistik der Universität zu Köln (Abteilung Sprachliche Informationsverarbeitung) entwickelt und stellt eine Software-Umgebung für Wissenschaftler, die mit Texten arbeiten, zur Verfügung.
Der konzeptuelle Schwerpunkt des Frameworks liegt dabei auf experimenteller Daten- und Verfahrensanalyse; so werden Wissenschaftler dabei unterstützt,
- unterschiedliche Arten von Texten (bspw. natürlichsprachliche Texte oder DNA-Transkriptionen) als Grundlage ihrer Experimente auszuwählen,
- etablierte ebenso wie neu entwickelte Verfahren auf diesen Texten anzuwenden und
- die Experimente in einer Form zu dokumentieren, mit der sie nachvollzogen und wiederholt werden können.
Tesla ist als Komponentensystem in Java implementiert, das auf Basis einer Client-Server-Architektur realisiert wurde. Über den Eclipse-basierten Client kann der Nutzer Texte verwalten und Experimente entwerfen. Experimente bestehen aus dem zu analysierenden Ausgangsmaterial (einzelne Texte oder Textsammlungen) und Komponenten, die bestimmte Aufgaben der Textprozessierung (bspw. Tokenisierung, Part-of-speech Tagging oder Sequenzalignment) übernehmen. Die Komponenten sind miteinander kombinierbar, wenn ihre Schnittstellen aufeinander abgestimmt sind. Schnittstellen der Komponenten sind die von ihnen erzeugten Ergebnisse, die als Annotationen mit den Rohdaten (Texte) verknüpft werden. Im Unterschied zu vergleichbaren Systemen wie UIMA sind die Ein- und Ausgabeschnittstellen von Tesla-Komponenten kaum restringiert, wodurch eine fein granulierte Komponenten-Kapselung ermöglicht wird, und es bspw. auch möglich ist, komplexe Datentypen (wie Graphen oder hochdimensionale Vektoren) als Annotationen zu verwenden.
Literatur
- Jürgen Hermes, Stephan Schwiebert: "Classification of text processing components: The Tesla Role System." In: Fink, Lausen, Seidel und Ultsch: "Advances in Data Analysis, Data Handling and Business Intelligence", Springer Verlag 2010 Abstract
Weblinks
Kategorien:- Computerlinguistik
- Angewandte Linguistik
- Information Retrieval
- Freies Programmierwerkzeug
Wikimedia Foundation.