- Textkorpora
-
Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten Textkorpus gelten: etwa dem deutschen Roman des 20. Jahrhunderts, oder Titeln, in denen ein bestimmtes Motiv wie "Eifersuchtsmord" vorkommt. Genauso kann ein Textkorpus von Linguisten ausgewertet werden, um Regelmäßigkeiten in dieser Sprache beschreiben zu können. Eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, Gesetzestexte einer bestimmten Tradition.
Gerne werden in linguistischen Arbeiten Zeitungsartikel als Textkorpora verwendet, da sie in großer Zahl und als elektronische Datei verfügbar sind. Diese "Bequemlichkeit" beeinflusst natürlich die Tendenz der Ergebnisse.
Die wichtigsten linguistischen Teilbereiche, die Textkorpora benutzen, sind die Korpuslinguistik und die Computerlinguistik. Hier werden möglichst große Korpora in möglichst großer Zahl automatisch mit Computerprogrammen ausgewertet oder durchforstet.
Ein Textkorpus muss nicht notwendigerweise aus geschriebenen Texten bestehen. Für die Spracherkennung besteht ein Korpus zum Beispiel aus Audiodateien, die Gespräche oder Monologe aufgezeichnet haben.
Mehrsprachige Korpora werden in der maschinellen Übersetzung verwendet. Hier ist ein Text mit gleicher oder ähnlicher Bedeutung in zwei oder mehr Sprachen verfügbar. Mit einer automatischen oder statistischen Analyse z.B. der Häufigkeit und Verteilung von bestimmten Wörtern kann man so ein Wörterbuch zwischen den beiden Sprachen automatisch erstellen. Die Bibel ist das am häufigsten verwendete mehrsprachige Textkorpus, vor allem bei kleineren, unbekannteren Sprachen.
Für linguistische Auswertungen nutzbare Textkorpora
Mit dem digitalen Deutschen Spracharchiv (DSAv) verfügt das Institut für Deutsche Sprache (IDS) in Mannheim über die weltweit größte Sammlung von Tonaufnahmen des gesprochenen Deutsch.
Außerdem stellt das IDS mit dem Deutschen Referenzkorpus (DeReKo) das weltweit größte Angebot an deutschsprachigen Textkorpora/Textsammlungen geschriebener Sprache (derzeit mehr als 3,2 Milliarden laufende Textwörter) zur Verfügung, das über die Schnittstelle COSMAS II recherchier- und analysierbar ist. COSMAS II hat mehrere tausend registrierte Internetnutzer im In- und Ausland.
Das Projekt „Digitales Wörterbuch der deutschen Sprache“ stellt das größte ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts bereit. Außerdem finden sich dort viele weitere Korpora, z.B. das komplette Online-Archiv der ZEIT (ab 1996), des Tagesspiegels (ab 1996) und der Potsdamer Neuesten Nachrichten, sowie ein großes Korpus jüdischer Periodika (siehe Germania Judaica). Die Korpora sind verknüpft mit einem großen einsprachigen deutschen Wörterbuch, dem Wörterbuch der deutschen Gegenwartssprache und mit automatisch generierten Informationen zu Synonymen, Hyponymen, Hyperonymen und Kollokationen versehen. Mehr als 10.000 Benutzer sind registriert, es besteht aber auch die Möglichkeit, ohne Registrierung in Korpora und Wörterbuch zu recherchieren.
Die Abteilung „Automatische Sprachverarbeitung“ der Uni Leipzig arbeitet ebenfalls an und mit großen Korpora und pflegt (u.A.) ein Deutschkorpus im Umfang von rund 1,5 Mrd. laufenden Wörtern (100 Mio. Sätze). Über das Webfrontend des Projekts (siehe unten) sind zahlreiche statistische Daten eines kleineren Korpus abfragbar.
Literatur
- Lenders, Wilfried / Willée, Gerd (1998): Linguistische Datenverarbeitung - Ein Lehrbuch - Opladen/Wiesbaden: Westdeutscher Verlag GmbH
- Duffner, Rolf / Näf, Anton (2006): Digitale Textdatenbanken im Vergleich. In: Linguistik Online 28. S, 7-23. (www.linguistik-online.de).
- Schmidt, Thomas (2005): Datenarchive für die Gesprächsforschung: Perspektiven, Probleme und Lösungsansätze.. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 103-126. (www.ozs-gespraechsforschung.de).
- Fiehler, Reinhard / Wagener, Peter (2005): Die Datenbank Gesprochenes Deutsch (DGD) – Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 136-147. (www.gespraechsforschung-ozs.de).
- Wagener, P. / Bausch, K.-H. ( Hgg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Tübingen: Niemeyer. (= Phonai Band 40).
- Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen: Gunther Narr Verlag. (= Narr Studienbücher).
- Kallmeyer, Werner / Zifonun, Gisela (Hgg.) (2007): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter. (=IDS Jahrbuch 2006).
Weblinks
- http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ - Tool zum Aufbereiten und Bearbeiten von Corpora
- http://www.dwds.de - Online Recherche im DWDS-Corpus und dem Wörterbuch der Deutschen Gegenwartssprache (WDG)
- http://www.ids-mannheim.de/cosmas2/ - COSMAS II: Recherche- und Analysesystem zu den schriftsprachlichen Korpora am Institut für Deutsche Sprache (IDS)
- http://wortschatz.uni-leipzig.de/ - Projekt Deutscher Wortschatz mit den Wörtern des Tages
- http://www.asv.informatik.uni-leipzig.de/ Automatische Sprachverarbeitung der Uni Leipzig
- Bayerisches Archiv für Sprachsignale Umfangreiche Sammlung von Korpora und ihre Beschreibung
Wikimedia Foundation.