- CuneiForm
-
CuneiForm Entwickler Cognitive Technologies Aktuelle Version 0.1.0
(14. Februar 2009)Betriebssystem Windows (Linux- und FreeBSD-Portierungen verfügbar) Kategorie Texterkennung Lizenz BSD (Freie Software) Deutschsprachig ja openocr.org CuneiForm (engl. keilförmig; Keilschrift) ist eine Texterkennungssoftware für gedruckte Erkennungsvorlagen des russischen Unternehmens Cognitive Technologies, die mittlerweile als Freie Software verfügbar ist.
Inhaltsverzeichnis
Merkmale
CuneiForm erkennt gedruckte Vorlagen, jedoch keine Handschrift oder ähnliches, mit Sprachmodellen für über 20 verschiedene Sprachen. Gut funktioniert auch die Erkennung komplizierter Tabellenstrukturen. Ergebnisse können in RTF, HTML oder als ASCII-Text gespeichert oder direkt an die Textverarbeitung Word oder die Tabellenkalkulation Excel exportiert werden. Es erhält Dokumentstruktur und Schriftarten und ermöglicht Stapelverarbeitung.
Geschichte
CuneiForm war einst marktführend in Russland (in Konkurrenz zu FineReader des Unternehmens ABBYY) und wurde mit einigen Scannern mitgeliefert.
1993 ging Cognitive Technologies einen OEM-Vertrag mit der kanadischen Corel Corporation ein, der die Einbindung der Erkennungsbibliothek in das Draw-Paket erlaubte, das ab Version 3.0 diese enthielt.
1996 wurde OCR CuneiForm'96 veröffentlicht. Es war das erste Texterkennungspaket, das mit einer adaptiven Erkennungsmethode arbeitete, einer Methode, die Multifont- und Omnifont-Erkennung verbindet: Es erfolgt eine interne Nachbildung des in der Erkennungsvorlage verwendeten Fonts aus den in erkennbarer Qualität abgebildeten Zeichen, womit dann die Erkennung schlechter abgebildeter Zeichen möglich wird, an die sich die Software damit bei der Erkennung dynamisch anpasst. Damit wurde die Erkennungsgenauigkeit wesentlich gesteigert.
1997 wurde die Nutzung neuronaler Netze bei der Erkennung eingeführt.
Seit 1999 kann die Software das Aussehen der Vorlage erhalten, indem die Anordnung der Elemente in der Ausgabe nachgebaut wird.
Im Rahmen eines Programmes, das erklärtermaßen Texterkennungstechnologie für jedermann verfügbar machen soll, hat Cognitive Technologies am 2. April 2008 angekündigt, die Software letzten Endes komplett als Freie Software verfügbar zu machen. Als erster Schritt wurde nach einigen Jahren ohne Entwicklungsfortschritte am 12. Dezember 2007 eine Freeware-Version veröffentlicht. Weiterhin wurde im Juni 2008 ein kostenloser Texterkennungsdienst im World Wide Web eingerichtet.
Als Investor und Projektkoordinator will Cognitive Technologies die Entwicklung einer neuen Version der Software fördern. Seit Anfang April 2008 ist der Kern der Erkennungsengine unter der vereinfachten BSD-Lizenz frei verfügbar, um auch kommerzielle Verwendung zu ermöglichen.[1] Am 30. August 2009 wurde auch die originale Benutzerschnittstelle offengelegt.
Cuneiform Linux
Jussi Pakkanen hat eine plattformunabhängig kompilierbare Version der Software erstellt, die auf Linux, BSD, Mac OS X und Windows läuft.[2] Diese unabhängigen Entwicklungen sollen schließlich in den Hauptzweig von Cognitive Technologies integriert werden. Es handelt sich um eine reine Kommandozeilen-Version, die mittels der Einbindung von ImageMagick das Lesen einer Vielzahl von Dateiformaten erlaubt, während sonst einzig unkomprimiertes BMP unterstützt wird. Seit Version 0.5 kann sie in die Beschreibungssprache hOCR ausgeben.
Frontends
YAGF[3] ist eine Qt-4-basierte graphische Benutzeroberfläche dazu, die via XSane Bilder direkt von einem Scanner einlesen kann und mittels libaspell eine Rechtschreibprüfung durchführen kann. Cuneiform-Qt[4] ist ein weiteres Qt-basiertes Frontend. OCRFeeder stellt eine komplette (scannen, Bildaufbereitung, Seitengestaltung analysieren und erhalten, Korrekturlesen, ...) Desktop-OCR-Lösung zur Verfügung, mit der man neben anderen auch CuneiForm als Backend nutzen kann. Mittels eines Skripts (xsane2cunei) kann CuneiForm auch in die Scan-Software XSane eingebunden werden. Aus der hOCR-Ausgabe von CuneiForm können mittels des Kommandozeilenprogrammes hocr2pdf[5] Bilder-PDF-Dateien maschinell durchsuchbar gemacht werden. Die Kommandozeilenwerkzeuge pdfsandwich[6] oder pdfocr[7] automatisieren diesen Prozess. Auch das Dokumentenmanagementsystem Archivista macht mittels CuneiForm und hocr2pdf PDFs maschinell durchsuchbar.
Weblinks
- offizielle Webpräsenz (russischsprachig)
- Projektübersicht zu Cuneiform Linux bei Launchpad
Einzelnachweise
- ↑ Cognitive Technologies открыла код OCR Cuneiform
- ↑ siehe das Projekt cuneiform-linux auf launchpad.net
- ↑ symmetrica.net/cuneiform-linux/yagf-en.html
- ↑ http://en.altlinux.org/Cuneiform-Qt
- ↑ exactcode.de/site/open_source/exactimage/hocr2pdf
- ↑ http://tobias-elze.de/pdfsandwich/
- ↑ https://github.com/gkovacs/pdfocr
Kategorien:- Optische Zeichenerkennung
- Freie Software
- Windows-Software
Wikimedia Foundation.