British National Corpus

British National Corpus

Das British National Corpus (BNC) ist eine 100 Millionen Wörter umfassende Sammlung geschriebener und gesprochener Sprache. Es umfasst dabei eine Vielzahl verschiedener Quellen, um einen repräsentativen Querschnitt durch das Britische Englisch des späten 20. Jahrhunderts präsentieren zu können.

Rund 90 Prozent des BNC bestehen aus Sprachdaten schriftlicher Sprache, etwa Auszügen aus regionalen sowie überregionalen Zeitungen, Fachzeitschriften, Zeitschriften aus vielen unterschiedlichen Interessensgebieten, akademischen Büchern, populärer Fiktion (Romane etc.), offiziellen sowie privaten Briefen, Aufsätzen aus Schule und Universität sowie vielen anderen Arten von Texten.

Die verbleibenden zehn Prozent mündlicher Sprachdaten umfassen zum Großteil informelle Konversation, die von Freiwilligen unterschiedlichen Alters, unterschiedlicher Herkunft und unterschiedlicher sozialer Klasse aufgezeichnet wurden, um ein demographisches Gleichgewicht zu erreichen. Die aufgezeichneten Gespräche entstanden in unterschiedlichsten Kontexten und reichen so von formellen Geschäfts- und Regierungsversammlungen bis hin zu Radiosendungen und Telefongesprächen.

Die Arbeit am BNC begann im Jahre 1991 und dauerte bis 1994. Nach der Fertigstellung des Projektes wurden keinen neuen Texte hinzugefügt, dennoch aber wurde das Korpus vor der Veröffentlichung der zweiten Auflage mit dem Namen "BNC World" leicht überarbeitet. Zwei Sub-Korpora mit Auszügen aus dem BNC wurden veröffentlicht: der BNC Sampler (eine Sammlung von je einer Million Wörter geschriebener und gesprochener Sprache) und BNC Baby (vier Millionen Wörter aus vier unterschiedlichen Genres).

Das BNC hat vier Haupteigenschaften:

  • Es ist einsprachig. Das BNC umfasst modernes Britisches Englisch, ohne weitere Sprachen, die auf der Britischen Insel verwendet werden. Dennoch tauchen Wörter nicht Britischer Herkunft im BNC auf.
  • Es ist synchronisch. Das BNC deckt allein das Britische Englisch des späten 20. Jahrhunderts ab und ermöglicht keinen Einblick in die historischen Entwicklungen, die es hervorgebracht haben.
  • Es ist allgemein. Das BNC beinhaltet viele verschiedene Stile und Varietäten und beschränkt sich nicht auf ein spezielles thematisches Gebiet, Genre oder Register. Insbesondere umfasst es Beispiele sowohl geschriebener als auch gesprochener Sprache.
  • Es beinhaltet Textauszüge, sog. "Samples". Für die schriftlichen Quellen wurden 45.000 Wörter aus unterschiedlichen Teilen eines einzigen Textes des jeweiligen Autors entnommen. Kürzere Texte bis zu einem Umfang von 45.000 Wörtern, oder auch Texte von mehreren Autoren wie beispielsweise Magazine und Zeitungsartikel, wurden vollständig in das BNC aufgenommen. Die Aufnahme von Textauszügen ermöglicht eine größere Bandbreite unterschiedlicher Texte innerhalb der 100-Millionen-Grenze zu repräsentieren und vermeidet somit eine Überrepräsentation idiosynkratischer Texte.

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • British National Corpus — The British National Corpus (or just BNC) is a 100 million word text corpus of samples of written and spoken English from a wide range of sources. It was compiled as a general corpus (text collection) in the field of corpus linguistics. The… …   Wikipedia

  • American National Corpus — (ANC) is a paid membership based collaboratory with the aim of creating an electronic text corpus of American English. The collection will include text and transcripts of spoken data produced from 1990, with the goal of a 100 million word… …   Wikipedia

  • Corpus linguistics — is the study of language as expressed in samples (corpora) or real world text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally …   Wikipedia

  • Corpus-assisted discourse studies — Corpus assisted discourse studies, or CADS, is related historically and methodologically to the discipline of corpus linguistics. The principal endeavor of corpus assisted discourse studies is the investigation, and comparison of features of… …   Wikipedia

  • Corpus oraux — Corpus oral En linguistique, un corpus oral est un corpus constitué de transcriptions de données orales. Bibliographie Olivier Baude, Corpus oraux. Guide des bonnes pratiques, Paris, CNRS, 2006 Douglas Biber, Variation across speech and writing,… …   Wikipédia en Français

  • corpus — meaning ‘a collection of writings’, has a plural corpora, although corpuses is increasingly found. In the domain of language and linguistics it is used to refer to a collection of texts of all kinds, written and spoken, which are read and… …   Modern English usage

  • Corpus of Contemporary American English — The freely searchable 425 million word Corpus of Contemporary American English (COCA) is the largest corpus of American English currently available, and the only publicly available corpus of American English to contain a wide array of texts from… …   Wikipedia

  • Corpus oral — En linguistique, un corpus oral est un corpus constitué de transcriptions de données orales. Bibliographie Olivier Baude, Corpus oraux. Guide des bonnes pratiques, Paris, CNRS, 2006 Douglas Biber, Variation across speech and writing, Cambridge,… …   Wikipédia en Français

  • British English — Britisches Englisch (British English, kurz BE oder BrE) ist die Bezeichnung für die Varietäten der englischen Sprache, wie sie auf den britischen Inseln (daher auch oft umgangssprachlich „Insel Englisch“ genannt) gesprochen und unter der… …   Deutsch Wikipedia

  • American and British English spelling differences — Spelling differences redirects here. For other uses, see Category:Language comparison. For guidelines on dialects and spelling in the English language version of Wikipedia, see Wikipedia:Manual of Style#National varieties of English. Differences… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”