Deutsches Textarchiv

Deutsches Textarchiv: Das Deutsche Textarchiv (DTA) ist ein seit Juli 2007 an der Berlin-Brandenburgischen Akademie der Wissenschaften beheimatetes und von der Deutschen Forschungsgemeinschaft gefördertes wissenschaftliches digitales Textarchiv, welches sich zur Aufgabe gesetzt hat, eine disziplinübergreifende Auswahl deutschsprachiger Texte aus der Zeit um 1650 bis 1900 auf Grundlage von Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextcorpus im Internet bereitzustellen.

Inhaltsverzeichnis

1 Struktur und Aufbau des Archives

2 Technische Realisierung

3 Perspektiven

4 Weblinks

Struktur und Aufbau des Archives

Erklärtes Ziel des Deutschen Textarchives ist es, eine repräsentative und disziplinübergreifende Auswahl digitalisierter deutschsprachiger Texte dem Benutzer zur Verfügung zu stellen. Neben kanonbildenden literarischen Werken legt die Konzeption des Deutschen Textarchives einen Schwerpunkt auf weniger bekannte und insbesondere auch nicht-literarische Texte. Um eine repräsentative Auswahl der Werke zu gewährleisten, greift das Deutsche Textarchiv auf eine auf der Grundlage von Bibliographien erstellte eigene Auswahlliste zurück. Das Archiv wird zudem einen großen Teil des Textkorpus des ebenfalls an der Akademie beheimateten Deutschen Wörterbuchs ("Grimmsches Wörterbuch") enthalten. In einem letzten Schritt bat man die interdisziplinären Mitglieder der Berlin-Brandenburgische Akademie der Wissenschaften, die nun erstellte Liste zu bewerten und aus ihrer fachlichen Perspektive fehlende Werke vorzuschlagen.

Unter der Leitung des Germanisten und Psycholinguisten Wolfgang Klein arbeitet im Deutschen Textarchiv an Aufbau und Pflege des Bestandes ein interdisziplinäres Team aus Buch- und Informationswissenschaftlern, Germanisten, Computerlinguisten und Informatikern sowie eine Reihe von studentischen Hilfskräften.

Technische Realisierung

Bei der Digitalisierung des Bestandes arbeitet das DTA mit zahlreichen wissenschaftlichen Institutionen und Bibliotheken zusammen, die entsprechende Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung stellen. Seit dem Beginn des Bestandsaufbaus wurden circa 250.000 Bilddigitalisate mit einem Datenvolumen von insgesamt knapp vier Terabyte angefertigt. Diese Digitalisate bilden die Basis für die Erstellung der Volltexte. Je nach Qualität und Komplexität der Vorlagen werden die Texte entweder durch eine selbst entwickelte Texterkennungssoftware (OCR) erfasst und nachkorrigiert oder durch einen externen Partner im Double-Keying-Verfahren erfasst. In einem letzten Schritt werden die Texte sprachwissenschaftlich mit computerlinguistischen Hilfsmitteln indiziert.

Die Texte stehen sowohl im HTML-Format als auch in einem XML-TEI-P5-Format zum Download zur Verfügung. Obwohl es sich um gemeinfreie Texte handelt, die frei verwendbar sind und eine reine Transkription vorliegt, suggeriert die Lizenzierung der Volltexte unter der CC-BY-NC-Lizenz, die nichtkommerzielle Verwendungen ausschließt, das Bestehen von Urbeherrechten (siehe Copyfraud).

Perspektiven

In einer späteren Projektphase hat sich das Deutsche Textarchiv vorgenommen, den Bestand zu einem aktiven Archiv zu entwickeln. So sollen eine private Textauswahl, das Setzen persistenter Lesezeichen auf Textpassagen und das Hinzufügen von Annotationen für den Benutzer möglich sein. Sollten die personellen und technischen Voraussetzungen in der Zukunft vorhanden sein, hat man sich das Ziel gesetzt, registrierten Nutzern die Berechtigung einzuräumen, auf der Grundlage der Richtlinien des Archivs, eigenständig Texte in das DTA zu integrieren.

Die Digitalisierung im Deutschen Textarchiv eröffnet neben sprach- und literaturwissenschaftlichen Untersuchungsmöglichkeiten auch buch- und kommunikationswissenschaftliche Forschungsperspektiven, wie beispielsweise Forschungen zur Typographie- und Verlagsgeschichte.

Weblinks

Homepage: www.deutschestextarchiv.de

Projekt an der BBAW: http://www.bbaw.de/forschung/dta

Kategorien:
Germanistik
Sprachwissenschaft
Digitale Bibliothek
Korpuslinguistik
Computerlinguistik

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

Deutsches Rechtswörterbuch — Das Deutsche Rechtswörterbuch (DRW) ist ein auch online vorliegendes Nachschlagewerk für die ältere deutsche Rechtssprache. Neben dem Deutschen Wörterbuch von Jacob und Wilhelm Grimm ist es die umfassendste Darstellung deutscher Wortgeschichte.… … Deutsch Wikipedia
DTA — steht für: Database Tuning Advisor, siehe Microsoft SQL Server Datentechnischer Assistent, ein Beruf Datenträgeraustauschverfahren im bargeldlosen Zahlungsverkehr Demokratische Turnhallenallianz, eine politische Partei in der Republik Namibia… … Deutsch Wikipedia
Textkorpus — Der Ausdruck Textkorpus (kurz auch nur Korpus oder Corpus) bezeichnet generell eine Sammlung von schriftlichen Texten oder von schriftlich aufgezeichneten, mündlichen Äußerungen in einer bestimmten Sprache. Das Wort leitet sich von lat. corpus =… … Deutsch Wikipedia
Korpuslinguistik — Die Korpuslinguistik ist ein derzeit aufstrebender Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage… … Deutsch Wikipedia
Bilderbogen — Neuruppiner Bilderbogen von 1850 Bilderbogen werden die Einblattdrucke (Flachdruck) des 18./19. Jahrhunderts genannt, die zumeist handkoloriert waren. Als populärer Bild und später Lesestoff waren sie weit verbreitet. Die Blätter, auf billigem… … Deutsch Wikipedia
Munich UCL Morphology Corpus — Der Munich UCL Morphology Corpus (MUMC) ist ein Textkorpus, eine elektronische Sammlung englischer Texte und transkribierter Dialoge, dessen Wörter morphologisch, also nach ihren Bestandteilen, markiert sind. Er wird an der LMU München zur… … Deutsch Wikipedia
Friedrich Ludwig Jahn — Jahn Denkmal in Neubrandenburg … Deutsch Wikipedia
Gisela May — en 2008. Nacimiento 31 de mayo de 1924 Wetzlar, Alemania … Wikipedia Español
Sagert — Horst Sagert (* 13. Oktober 1934 in Dramburg, Pommern) ist ein deutscher Regisseur, Bühnen und Kostümbildner. Leben und Wirken Sagert studierte von 1953 bis 1958 an der Hochschule für Bildende und Angewandte Kunst Berlin und schloss sein Studium… … Deutsch Wikipedia
Heinrich von Hesler — entstammt vermutlich aus der Familie von Heßler auf Burgheßler bei Eckartsberga und lebte im 13. Jahrhundert. Im benachbarten Klosterhäseler stiftete die Familie eine Niederlassung der Zisterzienserinnen. Heinrich war Laie ( nôthafter rîter ) und … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Deutsches Textarchiv

Inhaltsverzeichnis

Struktur und Aufbau des Archives

Technische Realisierung

Perspektiven

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Deutsches Textarchiv

Inhaltsverzeichnis

Struktur und Aufbau des Archives

Technische Realisierung

Perspektiven

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link