DeReKo

DeReKo

Das Deutsche Referenzkorpus (kurz DeReKo) ist ein elektronisches Archiv von deutschsprachigen Textkorpora geschriebener Sprache, das seit 1964 existiert und am Institut für Deutsche Sprache (IDS) in Mannheim beheimatet ist. Es wird kontinuierlich ausgebaut und ist mit derzeit über 3,4 Milliarden laufenden Textwörtern (Stand: November 2008) die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit.

Inhaltsverzeichnis

Alternative Bezeichnungen

Auf das Deutsche Referenzkorpus wird oft auch unter anderen Bezeichnungen verwiesen, u. a. sind dies die Bezeichnungen Mannheimer Korpora, IDS-Korpora, COSMAS-Korpora, Archiv der Korpora geschriebener Gegenwartssprache am IDS. Die Bezeichnung Deutsches Referenzkorpus (DeReKo) wurde ursprünglich nur für einen Teil des heutigen Archivs verwendet, der zwischen 1999 und 2002 in einem gleichnamigen Projekt aufgebaut wurde, an dem mehrere Institutionen beteiligt waren. Seit 2004 ist sie die offizielle Bezeichnung für das gesamte Korpusarchiv.

Konzeption und Zusammensetzung

Das Deutsche Referenzkorpus enthält belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie diverse weitere Textsorten. Die Texte decken den Zeitraum seit Mitte des 20. Jahrhunderts bis in die Gegenwart ab.

Im Gegensatz zu einigen anderen bekannten Korpora und Korpusarchiven (wie etwa das DWDS-Kernkorpus oder das British National Corpus) ist das Deutsche Referenzkorpus jedoch ausdrücklich nicht als ein ausgewogenes Korpus konzipiert: So sind die Texte weder nach bestimmten vorgegebenen Prozentanteilen auf die einzelnen Textsorten verteilt noch gleichmäßig über den abgedeckten Zeitraum verteilt.

Diese Konzeption folgt der Tatsache, dass grundsätzlich nur in Bezug auf einen festen Sprachausschnitt (d.h. eine feste Grundgesamtheit) beurteilt werden kann, ob ein Korpus eine ausgewogene oder sogar repräsentative Stichprobe darstellt. Unterschiedliche sprachwissenschaftliche Fragestellungen können sich aber auf sehr unterschiedliche Sprachausschnitte beziehen – insofern ist das Deutsche Referenzkorpus als eine Art Ur-Stichprobe zum Gebrauch der deutschen Schriftsprache konzipiert, aus der je nach Fragestellung und zugehöriger Grundgesamtheit gezielt eine ausgewogene Stichprobe zusammengestellt werden kann. Ein solches aus Texten eines bestehenden Korpusarchivs zusammengestelltes Korpus wird auch als ein virtuelles Korpus bezeichnet.

Zugang

Wegen urheber- und lizenzrechtlicher Bestimmungen darf das DeReKo-Archiv nicht kopiert und insbesondere auch nicht zum Download angeboten werden. Es ist über die Schnittstelle COSMAS II recherchierbar und analysierbar, wobei sich Nutzer namentlich registrieren und zu einer rein wissenschaftlichen und nicht kommerziellen Nutzung verpflichten müssen. COSMAS II bietet Nutzern die Möglichkeit, aus dem Deutschen Referenzkorpus gezielt ein zu ihrer Fragestellung passendes virtuelles Korpus zusammenzustellen und zu verwenden.

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Raspberry & Lavender — Raspberry Lavender: The Lavender Girl is an independent film directed and produced by Johnny Kim, Dereko Entertainment. It was filmed in 2002 and released in 2004. In the US, the film is also known as lavender Girl . Currently working on a sequel …   Wikipedia

  • Deutsches Referenzkorpus — Das Deutsche Referenzkorpus (kurz DeReKo) ist ein elektronisches Archiv von deutschsprachigen Textkorpora geschriebener Sprache, das seit 1964 existiert und am Institut für Deutsche Sprache (IDS) in Mannheim beheimatet ist. Es wird kontinuierlich …   Deutsch Wikipedia

  • Johnny Kim — Infobox actor imagesize = 150px name = Johnny Kim birthdate = September 25, 1968 birthplace = Seoul, KoreaJohnny Kim (born September 25, 1968) is an actor, film producer.BiographyEarly lifeKim was born in Seoul, Korea and moved at an early age to …   Wikipedia

  • Textcorpus — Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten …   Deutsch Wikipedia

  • Textkorpora — Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten …   Deutsch Wikipedia

  • Corpuslinguistik — Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden. Inhaltsverzeichnis 1 Grundlage 2 Korpuslinguistik und angewandte… …   Deutsch Wikipedia

  • Institut für Deutsche Sprache — Das Institut in R5 …   Deutsch Wikipedia

  • Korpuslinguistik — Die Korpuslinguistik ist ein derzeit aufstrebender Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage… …   Deutsch Wikipedia

  • Srebrenica — Сребреница …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”