OCRopus

OCRopus
OCRopus
Entwickler Thomas Breuel, DFKI
Aktuelle Version 0.4.4
(März 2010)
Betriebssystem Linux
Programmier­sprache C++, Python
Kategorie Texterkennung
Lizenz Apache
ocropus.org

OCRopus ist eine freie Anwendung zur Dokumentanalyse und Texterkennung mit einem sehr modularen Entwurf. OCRopus wird mit Unterstützung von Google Inc. unter Leitung von Thomas Breuel vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Kaiserslautern entwickelt und als Freie Software unter den Bedingungen von Version 2.0 der Apache-Lizenz veröffentlicht.

Inhaltsverzeichnis

Beschreibung

OCRopus ist ein OCR-System, das Analyse des Dokumentaufbaus, optische Zeichenerkennung und die Nutzung von statistischen Sprachmodellen in modularer Weise verbindet. Durch Zusatzmodule können Komponenten einfach ausgetauscht werden. Als Einsatzbereich zielt es zunächst auf das Einlesen großer Textmengen – namentlich die Retrodigitalisierung von Büchern für Google Book Search –, sollte sich jedoch auch für den Einsatz im Büro- oder Heimbereich oder für Sehgeschädigte eignen. Das Programm wird in C++ und Python mit Jam als Build-System unter Ubuntu Linux entwickelt.

Derzeit ist das von Hewlett-Packard entwickelte Tesseract das einzige Erkennungsmodul, das OCRopus zur Verfügung steht, doch in Zukunft sollen auch andere Engines eingebunden werden können (der Code dazu existiert schon und muss nur noch eingebaut werden), sodass OCRopus auch ohne Tesseract genutzt werden kann. So könnte beispielsweise, wenn dies benötigt wird, auf eine Engine für Handschrifterkennung umgeschaltet werden.

OCRopus liefert bereits bessere Analysen der Dokumentgliederung als Tesseract alleine. OCRopus hat bislang kein eigenes Sprachmodellsystem sondern nutzt das von Tesseract, es soll jedoch durch ein System ersetzt werden, das auf dem OpenFST-Projekt basiert, sobald dieses die erste offizielle Veröffentlichung erreicht hat.

Geschichte

2004 begann Google Inc. mit der Einführung von Google Book Search (damals noch Google Print), das die Online-Suche in herkömmlichen, gedruckt veröffentlichten Büchern ermöglichen soll. Für die dafür notwendige Retrodigitalisierung wurde OCRopus ins Leben gerufen.

Es basiert auf zwei Forschungsprojekten, einer Mitte der 90er entwickelten leistungsstarken Handschrifterkennung, die auch in US-Volkszählungsbehörde eingesetzt wird, und neueren Methoden zur Gliederungsanalyse.

Das Projekt wurde in einer Pressemeldung am 9. April 2007 angekündigt und der Code für Entwickler über die Subversion-Versionsverwaltung zugänglich gemacht.[1]

Die erste Alpha-Version 0.1 wurde am 22. Oktober 2007 veröffentlicht. Diverse Vorabversionen erschienen zwischen Dezember 2007 und Oktober 2008, während die angekündigte Veröffentlichung der ersten stabilen Version mehrmals verschoben wurde[2].

Benutzung

OCRopus ist in der aktuellen Vorabversion ein reines Kommandozeilenprogramm, während für die Veröffentlichung der ersten stabilen Version (Final) eine grafische Benutzeroberfläche geplant ist. Es wird primär für Linux-Plattformen entwickelt, sollte jedoch auf vielen Plattformen lauffähig sein, solange seine Abhängigkeiten erfüllt sind. Eingesetzt wird es, indem über die Kommandozeile das Eingabebild angegeben wird. Zur genaueren Steuerung können zusätzlich noch Optionen übergeben werden, um bestimmte Aktionen wie die Erkennung einer einzelnen Zeile auszuführen. Die Ergebnisse werden über die Standardausgabe (stdout) in HTML und CSS mit speziellen Formatierungen (hOCR) ausgegeben.

Siehe auch

Weblinks

Quellen und Einzelnachweise

  1. Ankündigung des quelloffenen Systems zur optischen Zeichenerkennung OCRopus (englisch)
  2. Roadmap im Entwicklerwiki

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • OCRopus — Developer(s) Thomas Breuel, DFKI Initial release 9 April 2007[1] Preview release 0.4.4 (alpha) / May 1, 2010; 18 months ago (2010 05 01 …   Wikipedia

  • OCROpus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

  • Ocropus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

  • OCRopus — est un logiciel libre de reconnaissance optique de caractères avec analyse de mise en page développé avec l aide de Google pour leur projet Google Books. Pour le moment le seul module de reconnaissance est Tesseract, une des ROC les plus exactes… …   Wikipédia en Français

  • OCRopus — Эта статья или её секция содержит информацию о программном обеспечении, которое в данный момент находится в разработке. Содержимое статьи может значительно измениться в ходе разработки ПО …   Википедия

  • Tesseract (software) — Infobox Software name = Tesseract caption = author = Ray Smith, Hewlett Packard cite web|url = http://code.google.com/p/tesseract ocr/|title = tesseract ocr|accessdate = 2008 07 12|last = Google|authorlink = |year = 2008] developer = Google… …   Wikipedia

  • Tesseract (Software) — Tesseract Maintainer Ray Smith u.a. Aktuelle Version 3.00.1 (5. Nov. 2010) Betriebssystem Windows, Linux, Mac OS X Programmier­sprache …   Deutsch Wikipedia

  • Document Layout Analysis — is a part of Computer Vision indicating the process of identifying and categorizing the regions of interest in a document image, e.g. a scanned page. A reading system requires the segmentation of text zones from non textual ones and the… …   Wikipedia

  • Handschrifterkennung — Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.… …   Deutsch Wikipedia

  • OCR-Schriften — Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”