Distributed Proofreading

Distributed Proofreading

Die Internet-Site Distributed Proofreaders (DP) wurde im Jahr 2000 von Charles Franks ins Leben gerufen, um das internationale Project Gutenberg zu unterstützen.

Hierbei versucht man, durch Unterteilung von eingescannten Büchern in einzelne Seiten die Arbeitsbelastung für einen einzelnen Korrekturleser möglichst gering zu halten und nach der Brute Force-Methode (bedeutet hier: eine möglichst große Anzahl von Bearbeitern liest nur jeweils eine Buchseite von Tausenden bereitgestellten zur Korrektur) ein möglichst großes Pensum zu erreichen.

Dabei wird nach demselben Prinzip wie beim verteilten Rechnen (distributed computing) vorgegangen. Der entscheidende Unterschied besteht darin, dass hier nicht eine sehr große Zahl von Computern über das Internet miteinander verknüpft werden, sondern dass eine beliebig große Zahl von Menschen über das Internet ihre Mitarbeit zur Verfügung stellen und damit in kurzer Zeit hunderte von Büchern durch ihr Korrekturlesen digitalisieren.

Die derzeit etwa 1400 aktiven Teilnehmer organisieren sich auf freiwilliger Basis nach Herkunft oder Interessen zu Teams; so hat etwa das sehr aktive Team Germany schon fast 200 Mitglieder, die auf allen Ebenen von DP mitwirken.

Inhaltsverzeichnis

Ablauf der weltweiten Buchdigitalisierung

Grundsätzlich lassen sich im Ablauf drei Phasen unterscheiden.

Initialisierungsphase

  • In der Initialisierungsphase wird durch einen erfahrenen und bereits seit längerem mitwirkenden Proofreader ein Buch ausgewählt. Das ausgewählte Buch muss frei von Urheberrechten sein. Beim ursprünglichen Projekt wird das amerikanische Urheberrecht zugrunde gelegt (bis 1922 veröffentlichte Texte), bei Distributed Proofreaders Europe die in Europa weitgehend einheitliche Regelung, dass der Autor des Buches vor mehr als 70 Jahren verstorben sein muss.
  • Der Initiator scannt zunächst jede Buchseite ein. Die Scans umfassen das ganze Buch, also Deckblatt, Inhaltsverzeichnis, Texte und Bilder.
  • Anschließend werden die Seiten durch eine OCR-Software analysiert. Der erste, aber noch überaus fehlerbehaftete Rohtext liegt dann vor.
  • Danach wird die Datenmenge auf die Homepage der Distributed Proofreader hochgeladen und als weiteren Projektvorschlag im Forum zur Diskussion gestellt. Nach positiver Abstimmung wird das Projekt dann zum Korrekturlesen freigeschaltet. Es steht dann zum Aufruf über die Homepage zusammen mit anderen Projekten weltweit zur Verfügung.

Phasen des Korrekturlesens

Runden 1 bis 3 des Korrekturlesens („Proofing“)

Nach Aufruf des Projekts wird jeweils eine Seite des Buchs angezeigt. Dabei wird in der oberen Bildschirmhälfte die gescannte Originalseite (als Grafik) und in der unteren Bildschirmhälfte der erkannte OCR-Text angezeigt. Der Proofreader liest nun den Text der Originalseite und vergleicht ihn mit dem OCR-Text (Rohtext). Dabei werden Scanfehler korrigiert und Sonderzeichen ergänzt.

Dieses eigentliche Korrekturlesen („proofing“) findet in zwei oder drei Runden statt, wobei jede Seite von zwei verschiedenen Teilnehmern bearbeitet wird. Zu den höheren Runden werden nur erfahrene Korrekturleser zugelassen.

Runden 4 und 5 („Formatting“)

In der vierten und fünften Runde werden Formatierungen hinzugefügt (z. B. kursive Schrift, Überschriften, Fußnoten). Während die Zugangshürden zur vierten Runde relativ gering sind, haben zur fünften Runde (der zweiten des Formatierens) nur erfahrene Teilnehmer Zugang.

Nachbearbeitung („Post-Processing“)

Die bisher unverbundenen Seiten des Rohtext werden automatisch zu einem Textdokument zusammengefasst. Jeweils ein erfahrener Korrekturleser, der den Status eines „Post-Processors“ erreicht hat, vervollständigt das Layout mit den Grafiken, d.h. er passt diese an, verbessert diese bzw. ergänzt noch mögliche Lücken im Text. Er überprüft das Dokument auf vollständige Übereinstimmung mit dem Originalwerk. Schließlich kann er außer dem obligatorischen Textformat noch weitere Formate erzeugen, vor allem HTML.

Veröffentlichung

Das Projekt wird beendet. Das digitalisierte Werk wird auf dem Server von Project Gutenberg (nicht zu verwechseln mit dem kommerziellen Anbieter Projekt Gutenberg-DE) veröffentlicht. Jeder Internetnutzer kann nun dieses Werk herunterladen und lesen. Das Werk steht damit der ganzen Welt zur Verfügung.

Bedeutung von Distributed Proofreading

Im Laufe der Zeit entwickelte sich Distributed Proofreading (DP) zur größten Quelle von E-Texten für das Project Gutenberg, so dass Distributed Proofreaders im Jahr 2002 offizieller Teil des Project Gutenberg wurde. Bisher (August 2008) wurden schon mehr als 13.000 Texte aus Literatur und Wissenschaft im Internet durch Distributed Proofreading wiederveröffentlicht. Damit wird ein erheblicher Beitrag bei der Hebung eines Wissensschatzes unserer Kultur- und Wissensgeschichte geleistet.

DP 10K

Am 9. März 2007 wurde von Distributed Proofreaders die Fertigstellung und Veröffentlichung der ersten 10.000 Texte bekannt gegeben. Um dies zu feiern und die Vielfalt der in DP bearbeiteten Bücher aufzuzeigen, wurde eine Auswahl von 15 Titeln zusammen veröffentlicht:

by Work Projects Administration (English)
by Powell, John Wesley (English)
by Caldecott, Randolph [Illustrator] (English)
by Serpa Pinto (Portuguese)
by Smith, E. E. ("Doc") (English)
by Spyri, Johanna (English)
by Spyri, Johanna (German)
by Punch (English)
by Evelyn, John (English)
by Therese de Dillmont (English)
by Francisco Ernantez Arana (fl. 1582), trans. by and edit. by Daniel G. Brinton (1837-1899) (English with Central American Indian)
by Richard Runciman Terry (1864-1938) (English)
by William Shakespeare, trans François Guizot (French)
by Burkett, Charles William (English)
by Carolus Linnaeus (Carl von Linné) (Latin)

Weblinks

  • http://www.pgdp.net - Homepage des Gründers Charles Franks. Bearbeitet Texte in allen Sprachen, die das lateinische Alphabet verwenden, sofern sie vor 1923 veröffentlicht wurden. Größte und aktivste DP-Seite.
  • http://www.pgdpcanada.net/c/default.php - Distributed Proofreaders Canada. Bearbeitet Texte, die nach 1923 veröffentlicht wurden, soweit der Autor vor mindestens 50 Jahren verstorben ist. Neueste DP-Seite.
  • http://dp.rastko.net/de - Distributed Proofreaders von Europa. Bearbeitet Texte aller europäischen Sprachen. Derzeit wenig aktive DP-Seite.

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Distributed Proofreaders — (commonly abbreviated as DP or PGDP) is a web based project that supports the development of e texts for Project Gutenberg by allowing many people to work together in proofreading drafts of e texts for errors …   Wikipedia

  • Distributed Computing — Verteiltes Rechnen (auch Dezentralisiertes Rechnen, Verteilte EDV; engl. Distributed Computing) ist eine Technik der Anwendungsprogrammierung, bei der die einzelnen Prozesse einer verteilten Anwendung ein gemeinsames Ergebnis berechnen.… …   Deutsch Wikipedia

  • Distributed Desktop Computing — Verteiltes Rechnen (auch Dezentralisiertes Rechnen, Verteilte EDV; engl. Distributed Computing) ist eine Technik der Anwendungsprogrammierung, bei der die einzelnen Prozesse einer verteilten Anwendung ein gemeinsames Ergebnis berechnen.… …   Deutsch Wikipedia

  • Distributed computing — Verteiltes Rechnen (auch Dezentralisiertes Rechnen, Verteilte EDV; engl. Distributed Computing) ist eine Technik der Anwendungsprogrammierung, bei der die einzelnen Prozesse einer verteilten Anwendung ein gemeinsames Ergebnis berechnen.… …   Deutsch Wikipedia

  • Distributed Proofreaders — Die Internet Site Distributed Proofreaders (DP) wurde im Jahr 2000 von Charles Franks ins Leben gerufen, um das internationale Project Gutenberg zu unterstützen. Hierbei versucht man, durch Unterteilung von eingescannten Büchern in einzelne… …   Deutsch Wikipedia

  • Proofreading — traditionally means reading a proof copy of a text in order to detect and correct any errors. Modern proofreading often requires reading copy at earlier stages as well. Proofreading in printing and publishing A proof copy is a version of a… …   Wikipedia

  • Distributed Proofreaders — (англ. Распределённые корректоры)  веб проект по оцифровке книг для проекта «Гутенберг». Идея проекта состоит в совместной работе массы волонтёров над созданием электронных книг, начиная с этапа сканирования и заканчивая выкладкой… …   Википедия

  • Distributed thinking — A Distributed thinking project is similar to Distributed computing except that the human computer user performs the relevant tasks. The tasks usually being unsuitable or extremely difficult for computers but very easy for humans. Examples include …   Wikipedia

  • Obando Fertility Rites — Main article: Obando, Bulacan The Obando Fertility Rites[1] is a Filipino dance ritual. Every year during the month of May, to the tune of musical instruments made out of bamboo materials, the men, women and children of Obando, Bulacan,… …   Wikipedia

  • Council of Keewatin — Type Type Unicameral Timeline Established …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”