CuneiForm

CuneiForm
CuneiForm
Entwickler Cognitive Technologies
Aktuelle Version 0.1.0
(14. Februar 2009)
Betriebssystem Windows (Linux- und FreeBSD-Portierungen verfügbar)
Kategorie Texterkennung
Lizenz BSD (Freie Software)
Deutschsprachig ja
openocr.org

CuneiForm (engl. keilförmig; Keilschrift) ist eine Texterkennungssoftware für gedruckte Erkennungsvorlagen des russischen Unternehmens Cognitive Technologies, die mittlerweile als Freie Software verfügbar ist.

Inhaltsverzeichnis

Merkmale

CuneiForm erkennt gedruckte Vorlagen, jedoch keine Handschrift oder ähnliches, mit Sprachmodellen für über 20 verschiedene Sprachen. Gut funktioniert auch die Erkennung komplizierter Tabellenstrukturen. Ergebnisse können in RTF, HTML oder als ASCII-Text gespeichert oder direkt an die Textverarbeitung Word oder die Tabellenkalkulation Excel exportiert werden. Es erhält Dokumentstruktur und Schriftarten und ermöglicht Stapelverarbeitung.

Geschichte

CuneiForm war einst marktführend in Russland (in Konkurrenz zu FineReader des Unternehmens ABBYY) und wurde mit einigen Scannern mitgeliefert.

1993 ging Cognitive Technologies einen OEM-Vertrag mit der kanadischen Corel Corporation ein, der die Einbindung der Erkennungsbibliothek in das Draw-Paket erlaubte, das ab Version 3.0 diese enthielt.

1996 wurde OCR CuneiForm'96 veröffentlicht. Es war das erste Texterkennungspaket, das mit einer adaptiven Erkennungsmethode arbeitete, einer Methode, die Multifont- und Omnifont-Erkennung verbindet: Es erfolgt eine interne Nachbildung des in der Erkennungsvorlage verwendeten Fonts aus den in erkennbarer Qualität abgebildeten Zeichen, womit dann die Erkennung schlechter abgebildeter Zeichen möglich wird, an die sich die Software damit bei der Erkennung dynamisch anpasst. Damit wurde die Erkennungsgenauigkeit wesentlich gesteigert.

1997 wurde die Nutzung neuronaler Netze bei der Erkennung eingeführt.

Seit 1999 kann die Software das Aussehen der Vorlage erhalten, indem die Anordnung der Elemente in der Ausgabe nachgebaut wird.

Im Rahmen eines Programmes, das erklärtermaßen Texterkennungstechnologie für jedermann verfügbar machen soll, hat Cognitive Technologies am 2. April 2008 angekündigt, die Software letzten Endes komplett als Freie Software verfügbar zu machen. Als erster Schritt wurde nach einigen Jahren ohne Entwicklungsfortschritte am 12. Dezember 2007 eine Freeware-Version veröffentlicht. Weiterhin wurde im Juni 2008 ein kostenloser Texterkennungsdienst im World Wide Web eingerichtet.

Als Investor und Projektkoordinator will Cognitive Technologies die Entwicklung einer neuen Version der Software fördern. Seit Anfang April 2008 ist der Kern der Erkennungsengine unter der vereinfachten BSD-Lizenz frei verfügbar, um auch kommerzielle Verwendung zu ermöglichen.[1] Am 30. August 2009 wurde auch die originale Benutzerschnittstelle offengelegt.

Cuneiform Linux

Jussi Pakkanen hat eine plattformunabhängig kompilierbare Version der Software erstellt, die auf Linux, BSD, Mac OS X und Windows läuft.[2] Diese unabhängigen Entwicklungen sollen schließlich in den Hauptzweig von Cognitive Technologies integriert werden. Es handelt sich um eine reine Kommandozeilen-Version, die mittels der Einbindung von ImageMagick das Lesen einer Vielzahl von Dateiformaten erlaubt, während sonst einzig unkomprimiertes BMP unterstützt wird. Seit Version 0.5 kann sie in die Beschreibungssprache hOCR ausgeben.

Frontends

YAGF[3] ist eine Qt-4-basierte graphische Benutzeroberfläche dazu, die via XSane Bilder direkt von einem Scanner einlesen kann und mittels libaspell eine Rechtschreibprüfung durchführen kann. Cuneiform-Qt[4] ist ein weiteres Qt-basiertes Frontend. OCRFeeder stellt eine komplette (scannen, Bildaufbereitung, Seitengestaltung analysieren und erhalten, Korrekturlesen, ...) Desktop-OCR-Lösung zur Verfügung, mit der man neben anderen auch CuneiForm als Backend nutzen kann. Mittels eines Skripts (xsane2cunei) kann CuneiForm auch in die Scan-Software XSane eingebunden werden. Aus der hOCR-Ausgabe von CuneiForm können mittels des Kommandozeilenprogrammes hocr2pdf[5] Bilder-PDF-Dateien maschinell durchsuchbar gemacht werden. Die Kommandozeilenwerkzeuge pdfsandwich[6] oder pdfocr[7] automatisieren diesen Prozess. Auch das Dokumentenmanagementsystem Archivista macht mittels CuneiForm und hocr2pdf PDFs maschinell durchsuchbar.

Weblinks

Einzelnachweise

  1. Cognitive Technologies открыла код OCR Cuneiform
  2. siehe das Projekt cuneiform-linux auf launchpad.net
  3. symmetrica.net/cuneiform-linux/yagf-en.html
  4. http://en.altlinux.org/Cuneiform-Qt
  5. exactcode.de/site/open_source/exactimage/hocr2pdf
  6. http://tobias-elze.de/pdfsandwich/
  7. https://github.com/gkovacs/pdfocr

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • CuneiForm — Тип оптическое распознавание символов Автор Cognitive Technologies Разработчики команда CuneiForm Linux Написана на C, C++ Интерфейс …   Википедия

  • Cuneiform — redirects here. For other uses, see Cuneiform (disambiguation). Sumerian inscription in monumental archaic style, c. 26th century BC …   Wikipedia

  • cuneiform — CUNEIFÓRM, Ă, cuneiformi, e, adj. Care este în formă de cui. ♢ Scriere cuneiformă = sistem de scriere cu litere în formă de cuie săpate în piatră sau imprimate pe tăbliţe de argilă, folosit de unele popoare orientale antice. ♦ (Substantivat, f.)… …   Dicționar Român

  • Cuneiform — Cu*ne i*form (k? n? ? f?rm), Cuniform Cu ni*form (k? n? f?rm), a. [L. cuneus a wedge + form: cf. F. cunei forme. See {Coin}.] 1. Wedge shaped; as, a cuneiform bone; especially applied to the wedge shaped or arrowheaded characters of ancient… …   The Collaborative International Dictionary of English

  • Cuneiform — (lat. cuneus, Keil) kann sich beziehen auf: das Keilbein, siehe Os cuneiforme cuneiform script, engl. für Keilschrift eine Texterkennungssoftware, siehe CuneiForm …   Deutsch Wikipedia

  • cuneiform — ► ADJECTIVE 1) relating to the wedge shaped characters used in the ancient writing systems of Mesopotamia, Persia, and Ugarit. 2) chiefly Biology wedge shaped. ► NOUN ▪ cuneiform writing. ORIGIN from Latin cuneus wedge …   English terms dictionary

  • cuneiform — [kyo͞o nē′ə fôrm΄, kyo͞o′nē əfôrm΄] adj. [< L cuneus (see CUNEAL) + FORM] 1. wedge shaped 2. designating the characters in ancient Akkadian, Assyrian, Babylonian, and Persian inscriptions, or the inscriptions themselves n. cuneiform characters …   English World dictionary

  • Cuneiform — Cu*ne i*form, Cuniform Cu ni*form, n. 1. The wedge shaped characters used in ancient Persian and Assyrian inscriptions. I. Taylor (The Alphabet). [1913 Webster] 2. (Anat.) (a) One of the three tarsal bones supporting the first, second third… …   The Collaborative International Dictionary of English

  • cuneiform — (adj.) 1670s, wedge shaped, from Fr. cunéiforme (16c.), from L. cuneus a wedge, wedge shaped thing, of unknown origin, + Fr. forme (see FORM (Cf. form) (n.)). Applied to characters in ancient Middle Eastern inscriptions made with wedge shaped… …   Etymology dictionary

  • cuneiform — meaning ‘ancient wedge shaped writing’, is now normally pronounced as three syllables in BrE, i.e. kyoo ni fawm, and as four in AmE, i.e. kyoo nay i fawm …   Modern English usage

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”