- British National Corpus
-
Das British National Corpus (BNC) ist eine 100 Millionen Wörter umfassende Sammlung geschriebener und gesprochener Sprache. Es umfasst dabei eine Vielzahl verschiedener Quellen, um einen repräsentativen Querschnitt durch das Britische Englisch des späten 20. Jahrhunderts präsentieren zu können.
Rund 90 Prozent des BNC bestehen aus Sprachdaten schriftlicher Sprache, etwa Auszügen aus regionalen sowie überregionalen Zeitungen, Fachzeitschriften, Zeitschriften aus vielen unterschiedlichen Interessensgebieten, akademischen Büchern, populärer Fiktion (Romane etc.), offiziellen sowie privaten Briefen, Aufsätzen aus Schule und Universität sowie vielen anderen Arten von Texten.
Die verbleibenden zehn Prozent mündlicher Sprachdaten umfassen zum Großteil informelle Konversation, die von Freiwilligen unterschiedlichen Alters, unterschiedlicher Herkunft und unterschiedlicher sozialer Klasse aufgezeichnet wurden, um ein demographisches Gleichgewicht zu erreichen. Die aufgezeichneten Gespräche entstanden in unterschiedlichsten Kontexten und reichen so von formellen Geschäfts- und Regierungsversammlungen bis hin zu Radiosendungen und Telefongesprächen.
Die Arbeit am BNC begann im Jahre 1991 und dauerte bis 1994. Nach der Fertigstellung des Projektes wurden keinen neuen Texte hinzugefügt, dennoch aber wurde das Korpus vor der Veröffentlichung der zweiten Auflage mit dem Namen "BNC World" leicht überarbeitet. Zwei Sub-Korpora mit Auszügen aus dem BNC wurden veröffentlicht: der BNC Sampler (eine Sammlung von je einer Million Wörter geschriebener und gesprochener Sprache) und BNC Baby (vier Millionen Wörter aus vier unterschiedlichen Genres).
Das BNC hat vier Haupteigenschaften:
- Es ist einsprachig. Das BNC umfasst modernes Britisches Englisch, ohne weitere Sprachen, die auf der Britischen Insel verwendet werden. Dennoch tauchen Wörter nicht Britischer Herkunft im BNC auf.
- Es ist synchronisch. Das BNC deckt allein das Britische Englisch des späten 20. Jahrhunderts ab und ermöglicht keinen Einblick in die historischen Entwicklungen, die es hervorgebracht haben.
- Es ist allgemein. Das BNC beinhaltet viele verschiedene Stile und Varietäten und beschränkt sich nicht auf ein spezielles thematisches Gebiet, Genre oder Register. Insbesondere umfasst es Beispiele sowohl geschriebener als auch gesprochener Sprache.
- Es beinhaltet Textauszüge, sog. "Samples". Für die schriftlichen Quellen wurden 45.000 Wörter aus unterschiedlichen Teilen eines einzigen Textes des jeweiligen Autors entnommen. Kürzere Texte bis zu einem Umfang von 45.000 Wörtern, oder auch Texte von mehreren Autoren wie beispielsweise Magazine und Zeitungsartikel, wurden vollständig in das BNC aufgenommen. Die Aufnahme von Textauszügen ermöglicht eine größere Bandbreite unterschiedlicher Texte innerhalb der 100-Millionen-Grenze zu repräsentieren und vermeidet somit eine Überrepräsentation idiosynkratischer Texte.
Weblinks
Wikimedia Foundation.