Optical Character Recognition

Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.

Inhaltsverzeichnis

1 Grundsätzliches
2 Verfahren
3 Anwendungen
- 3.1 OCR-Software
4 Siehe auch
5 Literatur

Grundsätzliches

Automatische Texterkennung und OCR werden im deutschen Sprachraum oft synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildschnipseln als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Diese OCR-Ergebnisse können durch nachfolgende Verfahren, in denen der Kontext berücksichtigt wird, präzisiert werden.

Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B (ISO 1073-2) ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.

Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu Handschriften (etwa bei der Briefverteilung), wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden technologisch einfacher handhabbare Strichcodes genutzt.

Moderne Texterkennung umfasst inzwischen mehr als reine OCR, das heißt die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse Intelligent Character Recognition (ICR) hinzugezogen, mit welcher die OCR-Ergebnisse korrigiert werden können. So kann eine „8“ zu einem „B“ korrigiert werden, wenn sie in einem Buchstaben-Kontext steht. Das OCR-Ergebnis „8aum“ kann mit ICR-Methoden zu „Baum“ korrigiert werden. Im Bereich industrieller Texterkennungssysteme wird daher von OCR/ICR-Systemen gesprochen. Die Grenzen des OCR-Begriffes sind jedoch fließend, denn OCR und ICR dienen auch als Marketingbegriffe, um technische Weiterentwicklungen besser vermarkten zu können. Auch Intelligent Word Recognition (IWR) fällt unter diese Kategorie. Dieser Ansatz versucht das Problem bei der Erkennung von Fließhandschriften zu lösen, bei der die Einzelzeichen nicht eindeutig separiert und daher nicht über herkömmliche OCR-Methoden erkannt werden können. Mit dieser Methode lassen sich jedoch keine Volltexte, sondern nur inhaltlich eng definierte und in ihrer Varianz bekannte Textausschnitte erkennen. Je größer die Varianz, desto zufallsabhängiger wird die Erkennungsgenauigkeit. Da IWR-Methoden nicht für Volltexterkennung geeignet sind, gilt generell, dass Fließhandschrift maschinell nicht lesbar ist. Das gilt auch für Schriften von Sprachen, die keine klaren Buchstabentrennungen haben, wie zum Beispiel die arabische Schrift.

Ein prinzipiell anderer Ansatz der Texterkennung findet bei der Handschriftenerkennung auf Touchscreens oder Eingabefeldern (PDA, usw.) statt. Hier werden vektorbasierte Muster verarbeitet, entweder ‚offline‘ als gesamtes Wort oder ‚online‘ mit zusätzlicher Analyse des Eingabeflusses. Siehe auch: Inkwell

Eine Sonderform der Texterkennung ergibt sich beispielsweise bei der automatischen Verarbeitung des Posteinganges großer Firmen. Eine Aufgabenstellung ist das Sortieren der Belege. Dafür muss nicht immer der Inhalt analysiert werden. Es reicht manchmal schon, die groben Merkmale, etwa das charakteristische Layout von Formularen, Firmenlogos, etc., zu erkennen. Die Klassifikation bestimmter Textarten erfolgt wie bei der OCR über eine Mustererkennung, die sich jedoch global auf das gesamte Blatt oder definierte Stellen anstelle einzelner Buchstaben bezieht.

Verfahren

Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:

Seiten- und Gliederungserkennung

Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.

Mustererkennung

Fehlerkorrektur auf Pixelebene

Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixeln korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.

Mustervergleich Mapping

Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen, Rohdigitalisate werden erzeugt.

Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)

Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt.

Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR)

Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, werden anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, zum Beispiel handgeschriebene Adressen auf Briefumschlägen.

Manuelle Fehlerkorrektur

Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrektur durch den Anwender für diejenigen Textbereiche, die „unsicher“ erkannt wurden.

Codierung in das Ausgabeformat

Je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank oder als Textdatei in einem definierten Format wie ASCII oder XML, gegebenenfalls auch mit Layout (etwa als HTML oder PDF).

Die Qualität der Texterkennung bestimmen unter anderem mehrere Faktoren:

Qualität der Layouterkennung,
Umfang und Qualität der Muster-Datenbank,
Umfang und Qualität der Wörterbücher,
Qualität der Algorithmen zur Fehlerkorrektur,
Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes,
Auflösung und Qualität der Bilddatei.

Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80 % erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99 %. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen.

Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe Rechtschreibfehler. Während Texte Redundanzen enthalten und deshalb eine höhere Fehlerrate zulassen, erfordern Zahlenlisten, wie beispielsweise Telefonnummern, ein mehrmaliges Korrekturlesen.

Anwendungen

Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten oder elektronisch durchsuchbar zu machen
Erkennung von relevanten Merkmalen (zum Beispiel Postleitzahl, Vertragsnummer, Rechnungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks
Eine erweiterte Volltextsuche in Datenbanken oder Document-Management-Systemen, um auch PDFs und Bilder durchsuchen zu können.
Erkennung von Merkmalen zur Registrierung und gegebenenfalls Verfolgung von Gegenständen (beispielsweise Kfz-Kennzeichen)
Layouterkennung: Es wird ein formatiertes Dokument erstellt, das der Vorlage bezüglich Text-, Bild- und Tabellenanordnung möglichst nahe kommt.
Blindenhilfsmittel: Für Blinde wird es durch die Texterkennung möglich, eingescannte Texte über Computer und Braillezeile zu lesen oder sich per Sprachausgabe vorlesen zu lassen.

OCR-Software

freie Software:

OCRopus
GOCR
CuneiForm
Tesseract
InstantOCR (webbasiert) (http://www.instantocr.com/)
OnOCR (webbasiert) (http://www.onocr.com/)

proprietäre Software:

ABBYY FineReader
OmniPage von Nuance Communications (früher: ScanSoft)
Readiris von Image Recognition Integrated Systems Group (I.R.I.S)
BIT-Alpha von B.I.T. Bureau Ingénieur Tomasi
Adobe Acrobat von Adobe Systems
CorelDRAW (Corel OCR-Trace) von Corel

Siehe auch

Literatur

Forschungsergebnisse am MIT (2001) (engl.)

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Optical character recognition — Optical character recognition, usually abbreviated to OCR, is the mechanical or electronic translation of scanned images of handwritten, typewritten or printed text into machine encoded text. It is widely used to convert books and documents into… … Wikipedia
optical character recognition — ➔ recognition * * * optical character recognition UK US noun [U] (ABBREVIATION OCR) IT ► the process by which a piece of electronic equipment recognizes printed or written letters or numbers: »The scanner uses optical character recognition to… … Financial and business terms
optical character recognition — (OCR) ability of a computer to recognize printed or handwritten characters by means of an optical scanner and specialized software … English contemporary dictionary
optical character recognition — n. electronic identification of alphanumeric characters, esp. those typewritten or printed on paper, for computer processing or storage … English World dictionary
Optical character recognition — Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.… … Deutsch Wikipedia
optical character recognition — Computers. the process or technology of reading data in printed form by a device (optical character reader) that scans and identifies characters. Abbr.: OCR [1960 65] * * * ˌoptical ˈcharacter recognition f38 [optical character recognition] noun … Useful english dictionary
Optical Character Recognition — Reconnaissance optique de caractères Pour les articles homonymes, voir ROC et OCR. La reconnaissance optique de caractères (ROC), ou encore appelé vidéocodage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la… … Wikipédia en Français
Optical character recognition — Reconnaissance optique de caractères Pour les articles homonymes, voir ROC et OCR. La reconnaissance optique de caractères (ROC), ou encore appelé vidéocodage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la… … Wikipédia en Français
Optical Character Recognition — Texterkennung; optische Zeichenerkennung; OCR * * * Optical Character Recognition, OCR, OCR Software, optische Zeichenerkennung … Universal-Lexikon
optical character recognition — optinis simbolių atpažinimas statusas T sritis automatika atitikmenys: angl. optical character recognition vok. optische Zeichenerkennung, f rus. оптическое распознавание символов, n pranc. reconnaissance optique de caractères, f … Automatikos terminų žodynas

Academic dictionaries and encyclopedias

Optical Character Recognition

Inhaltsverzeichnis

Grundsätzliches

Verfahren

Seiten- und Gliederungserkennung

Mustererkennung

Fehlerkorrektur auf Pixelebene

Mustervergleich Mapping

Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)

Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR)

Manuelle Fehlerkorrektur

Codierung in das Ausgabeformat

Anwendungen

OCR-Software

Siehe auch

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Optical Character Recognition

Inhaltsverzeichnis

Grundsätzliches

Verfahren

Seiten- und Gliederungserkennung

Mustererkennung

Fehlerkorrektur auf Pixelebene

Mustervergleich Mapping

Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)

Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR)

Manuelle Fehlerkorrektur

Codierung in das Ausgabeformat

Anwendungen

OCR-Software

Siehe auch

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link