hOCR (Standard)

hOCR (Standard)

hOCR ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere Informationen erfassen. Das Format baut auf XHTML (oder auch HTML) und damit letztlich auf ASCII-Text auf. Metadaten werden nach der Dublin-Core-Konvention zur Einbettung von Metadaten in HTML in speziellen <meta>-Tags abgespeichert.

Software

Das Format wurde in Googles OCRopus eingeführt. Außer von OCRopus kann das Format auch von CuneiForm, von HOCR, einer auf hebräische Schrift spezialisierten Texterkennungssoftware, und seit Version 3.0 auch von Tesseract direkt erzeugt werden.

Die hocr-tools sind ein Paket von Werkzeugen zur Verarbeitung (Zusammenfügen, Aufteilen, Einfügen von Metadaten) und Analyse von hOCR-Daten. Mit hocr2pdf[1] existiert ein Kommandozeilenwerkzeug zur Erzeugung von maschinell durchsuchbaren Bilder-PDF-Dateien anhand von hOCR-Daten. Die Firefox-Erweiterung moz-hocr-edit[2] erlaubt die Korrektur von Erkennungsergebnissen im hOCR-Format.

Weblinks

Einzelnachweise

  1. exactcode.de/site/open_source/exactimage/hocr2pdf
  2. http://jimgarrison.org/moz-hocr-edit/

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • HOCR — bezeichnet: einen offenen Standard, der ein Datenformat für Texterkennungsergebnisse beschreibt, siehe hOCR (Standard) eine Texterkennungssoftware für hebräische Schrift, siehe HOCR (Software) Diese Seite ist eine Begriffsklärung …   Deutsch Wikipedia

  • Tesseract (Software) — Tesseract Maintainer Ray Smith u.a. Aktuelle Version 3.00.1 (5. Nov. 2010) Betriebssystem Windows, Linux, Mac OS X Programmier­sprache …   Deutsch Wikipedia

  • Massachusetts — This article is about the U.S. state. For other uses, see Massachusetts (disambiguation). Commonwealth of Massachusetts …   Wikipedia

  • OCRopus — Developer(s) Thomas Breuel, DFKI Initial release 9 April 2007[1] Preview release 0.4.4 (alpha) / May 1, 2010; 18 months ago (2010 05 01 …   Wikipedia

  • OCROpus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

  • Ocropus — Entwickler: Thomas Breuel, DFKI Aktuelle Version: 0.3.1 (16. Oktober 2008) Betriebssystem: Linux Kateg …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”