Tesseract (Software)

Tesseract (Software)
Tesseract
Maintainer Ray Smith u.a.
Aktuelle Version 3.00.1
(5. Nov. 2010)
Betriebssystem Windows, Linux, Mac OS X
Programmier­sprache C++
Kategorie Texterkennung
Lizenz ASL (Freie Software)
Deutschsprachig ja
tesseract-ocr.googlecode.com

Tesseract ist ein freies Texterkennungsprogramm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet.

Es wird in der Programmiersprache C++ entwickelt.

Für die Sprachen Englisch, Französisch, Italienisch, Deutsch, Spanisch und Niederländisch sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden.[1] Mit einem entsprechenden Modul ist teilweise auch die Erkennung deutscher Fraktur-Schrift möglich.[2][3]

Inhaltsverzeichnis

Geschichte

Ursprünglich wurde die Software zwischen 1985 und 1995 von Hewlett-Packard entwickelt. Aus einem Test der University of Nevada, Las Vegas (UNLV) ging sie 1995 als einer der drei präzisesten Testkandidaten hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung weitgehend brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Hier wurde festgestellt, dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete. Nach einer Nachfrage bei Google, ob Interesse an dem Code bestünde, nahm sich Google des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn noch im gleichen Jahr unter der Apache-Lizenz über SourceForge frei.

Dies bedeutete in der Welt der freien Software einen großen Qualitätssprung im Bereich der Texterkennung. Das Projekt migrierte von SourceForge auf Googles eigene Software-Entwickler-Plattform Google Code, wo es unter Betreuung von Google weiterentwickelt wird.

Seit 2006 wird das Programm als Grundlage von Google Books weiterentwickelt. Version 3.0 vom September 2010 kann direkt in das hOCR-Format ausgeben und führt ein neues Modul zur Analyse der Seitengestaltung ein.

Anwendung

Tesseract wird nach den unter UNIX üblichen Konventionen auch unter Windows von der Kommandozeile aus gesteuert und hat folgendes Format:[4]

tesseract.exe imagename outputbase [-l lang] [configfile [[+|-]varfile]...

Tesseract liest das Bild im Tagged Image File Format (TIFF) ein und gibt den Text in die Ausgabedatei weiter. Da bislang keine Layoutkontrolle stattfindet – hierfür steht das laufende Projekt OCRopus – sind Textspalten auf einzelne Bilddateien zu verteilen. Das jüngere Forschungsprojekt Leptonica zielt ebenso auf Analyse der Seitengestaltung und weitere Bildformate.[5]

Eine automatisierte Verarbeitung lässt sich zum Beispiel mit ImageMagick verwirklichen.

Tesseract kann seit Version 3 unter Nutzung eines nicht dokumentierten Parameters die Scan-Ergebnisse im hOCR-Format speichern, wodurch die Seitengestaltung erhalten bleibt.[6]

Es existiert eine Reihe Software, die Tesseract als Backend einbindet. Tesseract dient als Zeichenerkennungsmodul in OCRopus, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet.[7] Neben weiteren möglichen Backends kann es in der Desktop-OCR-Lösung OCRFeeder zur Zeichenerkennung genutzt werden. Mittels hocr2pdf dient es zum Beispiel in dem Linux-basierten Document Management System Archivista der Erzeugung einer Text-Schicht zu rastergraphischen Abbildern eingescannter Papierdokumente, um diese maschinell durchsuchbar zu machen.

Verfügbarkeit

Tesseract wird als freie Software auch im Quelltext unter den Bedingungen von Version 2.0 der Apache-Lizenz (Apache Software License, ASL) verbreitet. In praktisch allen gängigen Linux-Distributionen kann es direkt aus den Standard-Paketquellen installiert werden.[2][8][9][10][11][12]

FreeOCR für Windows liegt als Version 3.0 vor.[13][14]

TesseractOCR Mac macht es auch für Mac OS X verfügbar.[15]

OCRextrACT stellt Tesseract 3.0 als Onlineservice zur Verfügung.[16] Verarbeitet werden PDF, TIF, PNG, JPEG, BMP, PBM/PGM/PPM.

Weblinks

Einzelnachweise

  1. http://code.google.com/p/tesseract-ocr/
  2. a b Erik Bärwaldt: Buchstabensalat. Texterkennung mit Tesseract. In: LinuxUser. Nr. 5, Linux New Media AG, 8. April 2011.
  3. http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-2.01.deu-f.tar.gz&can=2&q=
  4. http://code.google.com/p/tesseract-ocr/wiki/ReadMe
  5. http://www.leptonica.com/recent-pubs.html
  6. Adnan Vatandas (Oktober 2010): Tesseract 3 und hOCR. Abgerufen am 28. Oktober 2010.
  7. http://code.google.com/p/ocropus/
  8. http://packages.debian.org/de/sid/tesseract-ocr
  9. http://packages.ubuntu.com/search?tesseract-ocr
  10. https://admin.fedoraproject.org/pkgdb/acls/name/tesseract
  11. http://software.opensuse.org/search?q=tesseract
  12. http://doc4.mandriva.org/xwiki/bin/view/upmi/component/tesseract
  13. http://www.brothersoft.com/freeocr-59672.html
  14. http://www.freeocr.net/
  15. http://www.malcolmhardie.com/ocr/index.html
  16. http://www.ocr-extract.com/

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Tesseract (software) — Infobox Software name = Tesseract caption = author = Ray Smith, Hewlett Packard cite web|url = http://code.google.com/p/tesseract ocr/|title = tesseract ocr|accessdate = 2008 07 12|last = Google|authorlink = |year = 2008] developer = Google… …   Wikipedia

  • Tesseract (disambiguation) — Tesseract may mean:* Tesseract mdash; the 4 dimensional analogue of the cube. * Tesseract (software) mdash; optical character recognition software. * The Tesseract, a novel by Alex Garland. * The Tesseract (film), 2003 film starring Jonathan Rhys …   Wikipedia

  • Tesseract — bezeichnet: eine Texterkennungssoftware, siehe Tesseract (Software) eine englische Band, siehe Tesseract (Band) ein niederländisches Technolabel, siehe Tesseract Records Siehe auch: Tesserakt …   Deutsch Wikipedia

  • Tesseract OCR — Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la… …   Wikipedia Español

  • Tesseract — Первый выпуск середина 1980 х Последняя версия 3.02 / 28 октября 2012[1] Написана на C++ Операционная система Linux, Mac OS X и др. UNIX подобные, Windows Тип …   Википедия

  • Cantitruncated tesseract — In geometry, the cantitruncated tesseract is a uniform polychoron (or uniform 4 dimensional polytope) that is bounded by 56 cells: 8 great rhombicuboctahedra, 16 truncated tetrahedra, and 32 triangular prisms.ConstructionThe cantitruncated… …   Wikipedia

  • List of optical character recognition software — An OCR SDK is a software development kit for adding optical character recognition capabilities to forms processing applications, document imaging management systems, e discovery systems and records management solutions. In order to avoid the… …   Wikipedia

  • Truncated tesseract — In geometry, a truncated tesseract is a uniform polychoron (4 dimensional uniform polytope) which is bounded by 24 cells: 8 truncated cubes, and 16 tetrahedra.ConstructionThe truncated tesseract may be constructed by truncating the vertices of… …   Wikipedia

  • CuneiForm (software) — CuneiForm Original author(s) Cognitive Technologies Developer(s) Cognitive Technologies Stable release 1.1 / April 19, 2011; 6 months ago (2011 04 19) …   Wikipedia

  • Xena (software) — Para otros usos de este término, véase Xena. Xena es software de código abierto para uso en preservación digital. Xena es la abreviatura de XML Electronic Normalising for Archives (XML electrónico normalizado para archivos). Xena es una… …   Wikipedia Español

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”