HOCR (Software)

HOCR (Software)
HOCR
Hocr-logo.png
Hocr-bialik-1.png
Basisdaten
Entwickler Yaacov Zamir
Aktuelle Version 0.10.17
(16. August 2009)
Betriebssystem Linux (Mac OS X)
Programmier­sprache C, C++, Python
Kategorie Texterkennungssoftware
Lizenz GPL 3 (Freie Software)
http://hocr.berlios.de

HOCR ist eine freie Texterkennungssoftware für hebräische Schrift von Yaacov Zamir. Sie ist besonders für alte religiöse Texte und Poesie vorgesehen. Sie ist als Freie Software auch mitsamt des Quelltext unter der GPL veröffentlicht. Der Kern der Software ist die Programmbibliothek libhocr, die in C und C++ geschrieben ist. Dazu gibt es zwei Benutzerschnittstellen: das von Yuval Tanny mit Python und GTK+ erstellte hocr-gtk, das eine graphische Oberfläche bietet, und das Kommandozeilenprogramm hocr, das mehr Fähigkeiten hat und zur Automatisierung gedacht ist. Mit qHocr existiert auch eine (externe) Qt-basiertes graphisches Frontend. Zur Bibliothek gibt es eine Python- und eine Perl-Anbindung, über die sie beispielsweise geskriptet werden kann.

HOCR kann Texte mit Nikud verarbeiten, was für hebräische Poesie sehr wichtig ist, und mit komplexen Seitengestaltungen umgehen. Über GTK+ kann die Reihe der Bilddateiformate gelesen werden, die GTK+ unterstützt (einschließlich PNG, JPEG, TIFF, BMP). Weiterhin kann es mit einem Vorverarbeitungsschritt Schräglagen des Textes automatisch erkennen und ausgleichen, mit Flecken in der Vorlage umgehen und auch sehr dunkle, helle oder farbstichige Vorlagen verarbeiten. Erkennungsergebnisse werden mit UTF-8-Kodierung als einfacher ASCII-Text oder in das HTML-basierte hOCR-Format ausgegeben.

Die erste Version (0.2.0) wurde am 14. August 2005 veröffentlicht.[1] Anfang Dezember 2005 wurde hocr 0.4.6 in den unstable-Zweig der Linux-Distribution Debian aufgenommen[2] und im selben Monat in den testing-Zweig übernommen[3]; in Ubuntu finden sich hocr-Pakete seit der Version vom Juni 2006 (Dapper Drake).[4]

Weblinks

 Commons: HOCR – Sammlung von Bildern, Videos und Audiodateien
  1. hocr.berlios.de/documentation/html
  2. packages.qa.debian.org/h/hocr/news/20051211T224905Z.html
  3. packages.qa.debian.org/h/hocr/news/20051223T220806Z.html
  4. launchpad.net/ubuntu/+source/hocr

Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • HOCR (software) — Infobox Software name = HOCR caption = author = Yaacov Zamir developer = released = latest release version = latest release date = latest preview version = latest preview date = programming language = C, Python and C++ operating system = Linux… …   Wikipedia

  • HOCR — bezeichnet: einen offenen Standard, der ein Datenformat für Texterkennungsergebnisse beschreibt, siehe hOCR (Standard) eine Texterkennungssoftware für hebräische Schrift, siehe HOCR (Software) Diese Seite ist eine Begriffsklärung …   Deutsch Wikipedia

  • hOCR (Standard) — hOCR ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere… …   Deutsch Wikipedia

  • Tesseract (Software) — Tesseract Maintainer Ray Smith u.a. Aktuelle Version 3.00.1 (5. Nov. 2010) Betriebssystem Windows, Linux, Mac OS X Programmier­sprache …   Deutsch Wikipedia

  • CuneiForm — Entwickler Cognitive Technologies Aktuelle Version 0.1.0 (14. Februar 2009) Betriebssystem Windows (Linux und FreeBSD Portierungen verfügbar) Kategorie …   Deutsch Wikipedia

  • OCRFeeder — Developer(s) Joaquim Rocha (Igalia) …   Wikipedia

  • OCRopus — Developer(s) Thomas Breuel, DFKI Initial release 9 April 2007[1] Preview release 0.4.4 (alpha) / May 1, 2010; 18 months ago (2010 05 01 …   Wikipedia

  • OCRopus — Эта статья или её секция содержит информацию о программном обеспечении, которое в данный момент находится в разработке. Содержимое статьи может значительно измениться в ходе разработки ПО …   Википедия

  • OCROpus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

  • Ocropus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”