Textkorpora

Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten Textkorpus gelten: etwa dem deutschen Roman des 20. Jahrhunderts, oder Titeln, in denen ein bestimmtes Motiv wie "Eifersuchtsmord" vorkommt. Genauso kann ein Textkorpus von Linguisten ausgewertet werden, um Regelmäßigkeiten in dieser Sprache beschreiben zu können. Eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, Gesetzestexte einer bestimmten Tradition.

Gerne werden in linguistischen Arbeiten Zeitungsartikel als Textkorpora verwendet, da sie in großer Zahl und als elektronische Datei verfügbar sind. Diese "Bequemlichkeit" beeinflusst natürlich die Tendenz der Ergebnisse.

Die wichtigsten linguistischen Teilbereiche, die Textkorpora benutzen, sind die Korpuslinguistik und die Computerlinguistik. Hier werden möglichst große Korpora in möglichst großer Zahl automatisch mit Computerprogrammen ausgewertet oder durchforstet.

Ein Textkorpus muss nicht notwendigerweise aus geschriebenen Texten bestehen. Für die Spracherkennung besteht ein Korpus zum Beispiel aus Audiodateien, die Gespräche oder Monologe aufgezeichnet haben.

Mehrsprachige Korpora werden in der maschinellen Übersetzung verwendet. Hier ist ein Text mit gleicher oder ähnlicher Bedeutung in zwei oder mehr Sprachen verfügbar. Mit einer automatischen oder statistischen Analyse z.B. der Häufigkeit und Verteilung von bestimmten Wörtern kann man so ein Wörterbuch zwischen den beiden Sprachen automatisch erstellen. Die Bibel ist das am häufigsten verwendete mehrsprachige Textkorpus, vor allem bei kleineren, unbekannteren Sprachen.

Für linguistische Auswertungen nutzbare Textkorpora

Mit dem digitalen Deutschen Spracharchiv (DSAv) verfügt das Institut für Deutsche Sprache (IDS) in Mannheim über die weltweit größte Sammlung von Tonaufnahmen des gesprochenen Deutsch.

Außerdem stellt das IDS mit dem Deutschen Referenzkorpus (DeReKo) das weltweit größte Angebot an deutschsprachigen Textkorpora/Textsammlungen geschriebener Sprache (derzeit mehr als 3,2 Milliarden laufende Textwörter) zur Verfügung, das über die Schnittstelle COSMAS II recherchier- und analysierbar ist. COSMAS II hat mehrere tausend registrierte Internetnutzer im In- und Ausland.

Das Projekt „Digitales Wörterbuch der deutschen Sprache“ stellt das größte ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts bereit. Außerdem finden sich dort viele weitere Korpora, z.B. das komplette Online-Archiv der ZEIT (ab 1996), des Tagesspiegels (ab 1996) und der Potsdamer Neuesten Nachrichten, sowie ein großes Korpus jüdischer Periodika (siehe Germania Judaica). Die Korpora sind verknüpft mit einem großen einsprachigen deutschen Wörterbuch, dem Wörterbuch der deutschen Gegenwartssprache und mit automatisch generierten Informationen zu Synonymen, Hyponymen, Hyperonymen und Kollokationen versehen. Mehr als 10.000 Benutzer sind registriert, es besteht aber auch die Möglichkeit, ohne Registrierung in Korpora und Wörterbuch zu recherchieren.

Die Abteilung „Automatische Sprachverarbeitung“ der Uni Leipzig arbeitet ebenfalls an und mit großen Korpora und pflegt (u.A.) ein Deutschkorpus im Umfang von rund 1,5 Mrd. laufenden Wörtern (100 Mio. Sätze). Über das Webfrontend des Projekts (siehe unten) sind zahlreiche statistische Daten eines kleineren Korpus abfragbar.

Literatur

Lenders, Wilfried / Willée, Gerd (1998): Linguistische Datenverarbeitung - Ein Lehrbuch - Opladen/Wiesbaden: Westdeutscher Verlag GmbH
Duffner, Rolf / Näf, Anton (2006): Digitale Textdatenbanken im Vergleich. In: Linguistik Online 28. S, 7-23. (www.linguistik-online.de).
Schmidt, Thomas (2005): Datenarchive für die Gesprächsforschung: Perspektiven, Probleme und Lösungsansätze.. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 103-126. (www.ozs-gespraechsforschung.de).
Fiehler, Reinhard / Wagener, Peter (2005): Die Datenbank Gesprochenes Deutsch (DGD) – Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft. In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 136-147. (www.gespraechsforschung-ozs.de).
Wagener, P. / Bausch, K.-H. ( Hgg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Tübingen: Niemeyer. (= Phonai Band 40).
Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung. Tübingen: Gunther Narr Verlag. (= Narr Studienbücher).
Kallmeyer, Werner / Zifonun, Gisela (Hgg.) (2007): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter. (=IDS Jahrbuch 2006).

Weblinks

http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ - Tool zum Aufbereiten und Bearbeiten von Corpora
http://www.dwds.de - Online Recherche im DWDS-Corpus und dem Wörterbuch der Deutschen Gegenwartssprache (WDG)
http://www.ids-mannheim.de/cosmas2/ - COSMAS II: Recherche- und Analysesystem zu den schriftsprachlichen Korpora am Institut für Deutsche Sprache (IDS)
http://wortschatz.uni-leipzig.de/ - Projekt Deutscher Wortschatz mit den Wörtern des Tages
http://www.asv.informatik.uni-leipzig.de/ Automatische Sprachverarbeitung der Uni Leipzig
Bayerisches Archiv für Sprachsignale Umfangreiche Sammlung von Korpora und ihre Beschreibung

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

Textkorpus — Der Ausdruck Textkorpus (kurz auch nur Korpus oder Corpus) bezeichnet generell eine Sammlung von schriftlichen Texten oder von schriftlich aufgezeichneten, mündlichen Äußerungen in einer bestimmten Sprache. Das Wort leitet sich von lat. corpus =… … Deutsch Wikipedia
Korpuslinguistik — Die Korpuslinguistik ist ein derzeit aufstrebender Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage… … Deutsch Wikipedia
Corpuslinguistik — Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden. Inhaltsverzeichnis 1 Grundlage 2 Korpuslinguistik und angewandte… … Deutsch Wikipedia
Textcorpus — Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten … Deutsch Wikipedia
Altiranische Sprachen — Die iranischen Sprachen bilden eine Unterfamilie des indoiranischen Zweigs der indogermanischen Sprachfamilie. Weltweit gibt es circa 150 Millionen Menschen, die eine der etwa 50 neuiranischen Sprachen als Muttersprache sprechen, weitere 30–50… … Deutsch Wikipedia
DWDS — Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) ist ein Projekt, dessen Ziel die Erstellung eines digitalen Wörterbuchsystems auf der Basis sehr großer elektronischer Textkorpora ist. Dabei baut es auf dem sechsbändigen… … Deutsch Wikipedia
Digitales Wörterbuch der Deutschen Sprache — Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) ist ein Projekt, dessen Ziel die Erstellung eines digitalen Wörterbuchsystems auf der Basis sehr großer elektronischer Textkorpora ist. Dabei baut es auf dem sechsbändigen… … Deutsch Wikipedia
Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts — Das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) ist ein Projekt, dessen Ziel die Erstellung eines digitalen Wörterbuchsystems auf der Basis sehr großer elektronischer Textkorpora ist. Dabei baut es auf dem sechsbändigen… … Deutsch Wikipedia
Eranische Sprachen — Die iranischen Sprachen bilden eine Unterfamilie des indoiranischen Zweigs der indogermanischen Sprachfamilie. Weltweit gibt es circa 150 Millionen Menschen, die eine der etwa 50 neuiranischen Sprachen als Muttersprache sprechen, weitere 30–50… … Deutsch Wikipedia
Iranische Sprache — Die iranischen Sprachen bilden eine Unterfamilie des indoiranischen Zweigs der indogermanischen Sprachfamilie. Weltweit gibt es circa 150 Millionen Menschen, die eine der etwa 50 neuiranischen Sprachen als Muttersprache sprechen, weitere 30–50… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Textkorpora

Für linguistische Auswertungen nutzbare Textkorpora

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Textkorpora

Für linguistische Auswertungen nutzbare Textkorpora

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link