Textcorpus

Textcorpus

Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten Textkorpus gelten: etwa dem deutschen Roman des 20. Jahrhunderts, oder Titeln, in denen ein bestimmtes Motiv wie "Eifersuchtsmord" vorkommt. Genauso kann ein Textkorpus von Linguisten ausgewertet werden, um Regelmäßigkeiten in dieser Sprache beschreiben zu können. Eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, Gesetzestexte einer bestimmten Tradition.

Gerne werden in linguistischen Arbeiten Zeitungsartikel als Textkorpora verwendet, da sie in großer Zahl und als elektronische Datei verfügbar sind. Diese "Bequemlichkeit" beeinflusst natürlich die Tendenz der Ergebnisse.

Die wichtigsten linguistischen Teilbereiche, die Textkorpora benutzen, sind die Korpuslinguistik und die Computerlinguistik. Hier werden möglichst große Korpora in möglichst großer Zahl automatisch mit Computerprogrammen ausgewertet oder durchforstet.

Ein Textkorpus muss nicht notwendigerweise aus geschriebenen Texten bestehen. Für die Spracherkennung besteht ein Korpus zum Beispiel aus Audiodateien, die Gespräche oder Monologe aufgezeichnet haben.

Mehrsprachige Korpora werden in der maschinellen Übersetzung verwendet. Hier ist ein Text mit gleicher oder ähnlicher Bedeutung in zwei oder mehr Sprachen verfügbar. Mit einer automatischen oder statistischen Analyse z.B. der Häufigkeit und Verteilung von bestimmten Wörtern kann man so ein Wörterbuch zwischen den beiden Sprachen automatisch erstellen. Die Bibel ist das am häufigsten verwendete mehrsprachige Textkorpus, vor allem bei kleineren, unbekannteren Sprachen.

Für linguistische Auswertungen nutzbare Textkorpora

Mit dem digitalen Deutschen Spracharchiv (DSAv) verfügt das Institut für Deutsche Sprache (IDS) in Mannheim über die weltweit größte Sammlung von Tonaufnahmen des gesprochenen Deutsch.

Außerdem stellt das IDS mit dem Deutschen Referenzkorpus (DeReKo) das weltweit größte Angebot an deutschsprachigen Textkorpora/Textsammlungen geschriebener Sprache (derzeit mehr als 3,2 Milliarden laufende Textwörter) zur Verfügung, das über die Schnittstelle COSMAS II recherchier- und analysierbar ist. COSMAS II hat mehrere tausend registrierte Internetnutzer im In- und Ausland.

Das Projekt „Digitales Wörterbuch der deutschen Sprache“ stellt das größte ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts bereit. Außerdem finden sich dort viele weitere Korpora, z.B. das komplette Online-Archiv der ZEIT (ab 1996), des Tagesspiegels (ab 1996) und der Potsdamer Neuesten Nachrichten, sowie ein großes Korpus jüdischer Periodika (siehe Germania Judaica). Die Korpora sind verknüpft mit einem großen einsprachigen deutschen Wörterbuch, dem Wörterbuch der deutschen Gegenwartssprache und mit automatisch generierten Informationen zu Synonymen, Hyponymen, Hyperonymen und Kollokationen versehen. Mehr als 10.000 Benutzer sind registriert, es besteht aber auch die Möglichkeit, ohne Registrierung in Korpora und Wörterbuch zu recherchieren.

Die Abteilung „Automatische Sprachverarbeitung“ der Uni Leipzig arbeitet ebenfalls an und mit großen Korpora und pflegt (u.A.) ein Deutschkorpus im Umfang von rund 1,5 Mrd. laufenden Wörtern (100 Mio. Sätze). Über das Webfrontend des Projekts (siehe unten) sind zahlreiche statistische Daten eines kleineren Korpus abfragbar.

Literatur

  • Lenders, Wilfried / Willée, Gerd (1998): Linguistische Datenverarbeitung - Ein Lehrbuch - Opladen/Wiesbaden: Westdeutscher Verlag GmbH
  • Duffner, Rolf / Näf, Anton (2006): Digitale Textdatenbanken im Vergleich. In: Linguistik Online 28. S, 7-23. (www.linguistik-online.de).
  • Schmidt, Thomas (2005): Datenarchive für die Gesprächsforschung: Perspektiven, Probleme und Lösungsansätze.. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 103-126. (www.ozs-gespraechsforschung.de).
  • Fiehler, Reinhard / Wagener, Peter (2005): Die Datenbank Gesprochenes Deutsch (DGD) – Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 136-147. (www.gespraechsforschung-ozs.de).
  • Wagener, P. / Bausch, K.-H. ( Hgg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Tübingen: Niemeyer. (= Phonai Band 40).
  • Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen: Gunther Narr Verlag. (= Narr Studienbücher).
  • Kallmeyer, Werner / Zifonun, Gisela (Hgg.) (2007): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter. (=IDS Jahrbuch 2006).

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Liste der unregelmäßigen Substantive im Neugriechischen — Unregelmäßige Substantive im Neugriechischen sind Substantive, die sich in verschiedenerlei Hinsicht grammatikalisch anders verhalten als die Mehrheit der neugriechischen Substantive. Inhaltsverzeichnis 1 Übersicht 2 Gebrauch 3 Substantive mit… …   Deutsch Wikipedia

  • Liste unregelmäßiger Substantive im Neugriechischen — Unregelmäßige Substantive im Neugriechischen sind Substantive, die sich in verschiedenerlei Hinsicht grammatikalisch anders verhalten als die Mehrheit der neugriechischen Substantive. Inhaltsverzeichnis 1 Übersicht 2 Gebrauch 3 Substantive mit… …   Deutsch Wikipedia

  • Unregelmäßige Nomen im Neugriechischen — Unregelmäßige Substantive im Neugriechischen sind Substantive, die sich in verschiedenerlei Hinsicht grammatikalisch anders verhalten als die Mehrheit der neugriechischen Substantive. Inhaltsverzeichnis 1 Übersicht 2 Gebrauch 3 Substantive mit… …   Deutsch Wikipedia

  • Unregelmäßige Substantive im Neugriechischen — sind Substantive, die sich in verschiedenerlei Hinsicht grammatikalisch anders verhalten als die Mehrheit der neugriechischen Substantive. Inhaltsverzeichnis 1 Übersicht 2 Gebrauch 3 Substantive mit individuellem Deklinationsschema …   Deutsch Wikipedia

  • Unregelmäßige neugriechische Substantive — Unregelmäßige Substantive im Neugriechischen sind Substantive, die sich in verschiedenerlei Hinsicht grammatikalisch anders verhalten als die Mehrheit der neugriechischen Substantive. Inhaltsverzeichnis 1 Übersicht 2 Gebrauch 3 Substantive mit… …   Deutsch Wikipedia

  • Aljamiado — Handschrift des Poema de Yuçuf. Sie stammt aus der Mudéjar Epoche, 14.Jhd., ist in einem alt spanischen Dialekt (aragonesisch) verfasst und im arabischem Alphabet geschrieben. Dieser arabische Aljamiadotext erzählt in altspanischer Sprache die… …   Deutsch Wikipedia

  • Hieroglyphen-Luwisch — Luwisch Gesprochen in vormals in Anatolien, Nord Syrien Sprecher ausgestorben Linguistische Klassifikation Indogermanisch Anatolisch Luwisch …   Deutsch Wikipedia

  • Hieroglyphenluwisch — Luwisch Gesprochen in vormals in Anatolien, Nord Syrien Sprecher ausgestorben Linguistische Klassifikation Indogermanisch Anatolisch Luwisch …   Deutsch Wikipedia

  • Luvisch — Luwisch Gesprochen in vormals in Anatolien, Nord Syrien Sprecher ausgestorben Linguistische Klassifikation Indogermanisch Anatolisch Luwisch …   Deutsch Wikipedia

  • Luwisch — Gesprochen in vormals in Anatolien, Nord Syrien Sprecher ausgestorben Linguistische Klassifikation Indogermanisch Anatolisch Luwisch …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”