Corpuslinguistik

Corpuslinguistik

Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden.

Inhaltsverzeichnis

Grundlage

Die Korpuslinguistik untersucht Sprache, in ihren verschiedenen Erscheinungsformen. Grundlage der Korpuslinguistik sind Korpora. Dabei handelt es sich um ein Textkorpus, das mit einer bestimmten Methode zusammengestellt wurde. Die Texte sind natürliche Äußerungen der (meist) gesprochenen Sprache. Es gibt aber auch Korpora die ausschließlich geschriebene Texte beinhalten (z.B. Bonner Zeitungskorpus, Dortmunder Chat-Korpus, TAZ Korpus, etc.). Die meisten Korpora, die mittlerweile fast alle online verfügbar sind und über bestimmte Software zur Recherche nutzbar gemacht wurden, bestehen aus realen sprachlichen Äußerungen, die innerhalb eines bestimmten Projektes erhoben wurden.

Ziel der Korpuslinguistik ist anhand dieser Aufzeichnungen bestimmte sprachliche Phänomene aufzuzeigen, oder bestehende Theorien zu falsifizieren. Wichtig ist dabei zu beachten, dass immer nur ein gewisser Ausschnitt der Realität in Korpora wiedergegeben werden kann. Es gibt nicht das eine Korpus, das z.B. den gesamten deutschen Sprachbereich erfasst. Es gibt mehrere “kleine“, die einen bestimmten Ausschnitt repräsentieren. Der Fokus der Erhebung wird dabei auf die Performanz der Sprecher gelegt, nicht auf die Kompetenz (vgl. Noam Chomsky). Die Grundannahme der Korpuslinguistik unterstellt, dass relevante und zuverlässige Erkenntnisse über Sprache anhand realer sprachlichen Äußerungen erforscht werden können. Es gibt aber auch Korpora, die subjektive Sprachdaten mit den Transkripten dokumentieren und für qualitative Untersuchungen bereitstellen. Die sprachlichen Daten werden mit der Methode der Transkription (Konversationsanalyse) für die qualitativen und quantitativen Untersuchungen vorbereitet.

Eine neue Möglichkeit digitale Korpora zu untersuchen ist mithilfe der Software COSMAS2[1], die am Institut für Deutsche Sprache in Mannheim entwickelt wurde. Damit hat man Zugriff auf verschiedene schriftsprachliche Korpora, insbesondere auf das Deutsche Referenzkorpus (DeReKo), die größte deutschsprachige Sammlung elektronischer Textkorpora. Insgesamt sind über 30 Korpora digitalisiert und über das Internet zugänglich. Laufend kommen neue Korpora hinzu.

Korpuslinguistik beschäftigt sich mit natürlichen Sprachen, nicht mit Formalen. Sie untersucht zum Beispiel diachrone Unterschiede zwischen verschiedenen Sprachstufen des Deutschen. Aber auch für synchrone Erhebungen ist die Methode gut nutzbar. So wurden verschiedene aktuelle (seit den 1960er Jahren) Erhebungen genutzt, um aktuelle Forschung und gesellschaftlich wichtige Arbeit zu befruchten. Die Linguistiker des BKA nutzen Online-Korpora für die Analyse von Erpresserbriefen und Straftaten, bei denen nur die Stimme zur Identifizierung des Täters dient.

Korpuslinguistik und angewandte Informatik

Der heutige Stand der Korpuslinguistik wurde erst durch elektronische Datenverarbeitung möglich, da enorme Datenmengen bearbeitet werden müssen, um zu statistisch tragbaren Aussagen über komplexe Zusammenhänge zu gelangen. Um beispielsweise Aussagen über die Nachbarschaft (Kollokation bzw. Kookkurrenz) zweier Wörter machen zu können (Bsp. Heißt es *der Auto, *die Auto oder das Auto?), müssen diese Wortpaare erst einmal häufig genug im Korpus enthalten sein, damit ein falsch positiver Eintrag ("die, die Auto fahren") nicht zu einer insgesamt falschen Aussage führt. Eine Anwendung aus der Zeit vor dem Computer, die heute der Korpuslinguistik zugerechnet werden kann, ist die Konkordanz.

Auch heute noch stellen viele Anwendungen der Korpuslinguistik selbst leistungsfähige Computer vor Herausforderungen. Dies ist ein Grund dafür, dass einige Textverarbeitungen in neuen Versionen auf alten Computern langsamer laufen als ihre Vorgängerversionen, da sie Elemente der Korpuslinguistik für ihre Rechtschreib- und Grammatikprüfung integrieren.

Geschichte und Anwendungsgebiete

Da die Flexion von Wörtern im Englischen heute nur noch für wenige Fälle genutzt wird, genügen kleinere Textkorpora eher als für viele andere Sprachen: Während das Englische mit den Wörtern house, house's, houses und houses' auskommt, muss im Deutschen ein Zusammenhang zwischen Haus und seinen flektierten Formen wie Häuser, Hauses, Hause, Häusern erst hergestellt werden. Dies ist, neben einer allgemeinen Tendenz zur angewandten Forschung im anglo-amerikanischen Raum ein Grund, weshalb sich die Anwendung von Computern für die Korpuslinguistik dort zuerst entwickelt hat.

Computerbasierte Korpuslinguistik wurde 1967 von Henry Kucera und Nelson Francis durch ihr Werk Computational Analysis of Present-Day American English begründet, in dem sie das Brown Corpus diversen rechnergestützten Analysen unterziehen und die linguistischen, psychologischen, statistischen und soziologischen Aspekte der Ergebnisse diskutieren.

Das Brown Corpus wurde von denselben Forschern an der Brown University gesammelt und schon 1964 veröffentlicht. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien mit zusammen etwa einer Million Wörtern. Es war das erste allgemeine und computerlesbare Korpus und gilt, obwohl es heute teilweise veraltet ist, durch seine prägende Wirkung auf andere Korpora immer noch als eines der wichtigsten überhaupt.

Die Korpuslinguistik wurde zuerst zur Entwicklung von Wörterbüchern, namentlich des American Heritage Dictionary (1969) genutzt, die von da an nicht nur präskriptive Beschreibungen (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) enthielten. Zudem kann durch Worthäufigkeitsstatistiken die Relevanz von Einträgen zum Beispiel für zweisprachige Wörterbücher oder Lernerwörterbücher quantitativ ermittelt werden. Ein deutsches Online-Wörterbuch, das mit Mitteln der Korpuslinguistik erstellt wurde, ist das Wortschatzlexikon der Universität Leipzig. Es enthält eine Reihe anderer Angaben und Möglichkeiten gegenüber "normalen" Wörterbüchern. So kann man Assoziationsgrafen anzeigen und die relative Häufigkeit eines Wortes ermitteln. Durch Auswertung von Tageszeitungen wird eine Wortliste mit "Wörtern des Tages" erstellt.

Weitere Anwendungsgebiete sind der Aufbau von semantischen Netzen und damit die Sortierung von Texten oder des Wortschatzes (zur Suche nach Synonymen, Antonymen oder sinnverwandten Wörtern und damit als automatisch erzeugter Thesaurus). Mehrsprachige Korpora können zur (teil-)automatischen Übersetzung oder für vergleichende Betrachtungen der Sprachen genutzt werden.

Methode, nicht Wissenschaft

Streng genommen stellt die Korpuslinguistik eher eine Technik oder eine neue Methode als eine neue linguistische Teildisziplin dar. Die einzelnen Wissenschaftler, die Erkenntnisse mit der Methode gewinnen, kommen meistens aus vielen verschiedenen Teilgebieten der Linguistik. Sehr nützlich erweist sich die Methode für die Dialektologie, da viele Korpora Daten zur diatopischen Verteilung der sprachlichen Äußerung haben. Korpuslinguistischer Methoden bedient sich zum Beispiel die Statistische Linguistik oder die Computerlinguistik. Der enorme Status-Wechsel der Korpuslinguistik wurde erst ermöglicht durch die Verfügbarkeit großer Mengen an elektronischen Texten, verbunden mit dem leichten Zugang zu Computern und den Möglichkeiten des Internets.

Korpuslinguistik (Empirismus) vs. traditioneller Ansatz (Rationalismus)

Die Korpuslinguistik ist eine induktive/empirische Methode zum Gewinn von Wissen über die Sprache: Man stellt eine Theorie auf nach der Beobachtung von möglichst vielen Einzelbeispielen. Sie steht damit in direktem Wettbewerb zu der deduktiven Methode, die bis dato praktisch die einzig gültige (und mögliche) in der Linguistik war, und sich aus der philosophischen Tradition der Linguistik herleitet: Der Wissenschaftler überlegt sich, wie Sprache aufgebaut ist, und versucht danach, in mehreren Sprachen Beispiele für seine Überlegung zu finden.

Dieser Ansatz liegt auch sämtlichen Theorien des "Sprachwissenschaft-Papstes" Noam Chomsky zugrunde. Er hat sich bereits klar gegen den Einsatz von korpuslinguistischen Methoden in der Linguistik ausgesprochen.

Noam Chomsky unterschied bei seinen Untersuchungen zwischen "E-Language" (der Menge der grammatisch korrekten Sätze) und "I-Language" (deren Repräsentation im menschlichen Sprachzentrum). Dabei konzentrierte er sich mehr und mehr auf letztere und stellte fest, dass für deren Untersuchung Textkorpora nicht geeignet sind. Er konzentrierte sich daher auf kurze Texte, die unter Laborbedingungen aus von Muttersprachlern gewonnenen Textproben erforscht wurden. Für seine Untersuchungen der I-Language schloss Chomsky die Korpuslinguistik als irrelevant aus. Die Textlinguistik dagegen erforscht nur die E-Language (in Chomskys Terminologie). Beide betrachten also grundlegend unterschiedliche Teilbereiche der Linguistik. Die Korpuslinguistik verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.

Der Streit zwischen Korpuslinguistik und traditioneller Linguistik ähnelt dem Streit zwischen Evidenzbasierter Medizin und traditioneller Medizin. Auch dort haben computergestützte Methoden den empirischen Nachweis von vorher eher glaubensbasierten Erkenntnissen leichtergemacht.

Siehe auch

Linguistik, Künstliche Intelligenz, Maschinenlernen, Data-Mining, Komplexität (Informatik)

Literatur

  • Duffner, Rolf / Näf, Anton (2006): Digitale Textdatenbanken im Vergleich. In: Linguistik Online 28. S, 7-23. (www.linguistik-online.de)
  • Fiehler, Reinhard / Wagener, Peter (2005): Die Datenbank Gesprochenes Deutsch (DGD). In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 136-147.
  • Köhler, Reinhard (2005): Korpuslinguistik. Zu wissenschaftstheoretischen Grundlagen und methodologischen Perspektiven. In: LDV-Forum 20/2. S, 1-16. ([www.ldv-forum.org]).
  • Kallmeyer, Werner / Zifonun, Gisela (Hgg.) (2007): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter. (=IDS Jahrbuch 2006).
  • Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik. Tübingen: Gunter Narr Verlag.
  • Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter (Kurze Einführungen in die germanistische Linguistik 2).
  • Tony McEnery,Tony / Wilson, Andrew (2001): Corpus linguistics: an introduction. 2. ed. Edinburgh University Press 2001. ISBN 0-7486-1165-7
  • Wagener, P. / Bausch, K.-H. ( Hgg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Tübingen: Niemeyer. (= Phonai Band 40).

Einzelnachweise

  1. COSMAS 2

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Geistesinformatik — Unter dem Stichwort Humanities Computing oder Digital Humanities haben sich im angelsächsischen Raum Forschungsrichtungen der angewandten Informatik versammelt, die sich mit dem Computereinsatz in den Geisteswissenschaften beschäftigen. Im… …   Deutsch Wikipedia

  • Humanities Computing — Unter dem Stichwort Humanities Computing oder Digital Humanities haben sich im angelsächsischen Raum Forschungsrichtungen der angewandten Informatik versammelt, die sich mit dem Computereinsatz in den Geisteswissenschaften beschäftigen. Im… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”