- Zeichenkodierung
-
Eine Zeichenkodierung (englisch Character encoding, kurz Encoding) erlaubt die eindeutige Zuordnung von Schriftzeichen (Buchstaben oder Ziffern) und Symbolen innerhalb eines Zeichensatzes. In der Elektronischen Datenverarbeitung werden Zeichen über einen Zahlenwert kodiert und eignen sich damit für Übertragungen oder Speicherungen. Der deutsche Umlaut Ü wird zum Beispiel im ISO-8859-1-Zeichensatz mit dem Dezimalwert 220 kodiert. Im EBCDIC-Zeichensatz kodiert der Wert 220 die geschweifte Klammer }. Zur richtigen Darstellung eines Zeichens muss also die Zeichenkodierung bekannt sein; der Zahlenwert allein reicht nicht aus.
Zahlenwerte aus Zeichenkodierungen lassen sich auf verschiedene Art transportieren, zum Beispiel durch optische, akustische oder elektrische Signale, in aller Regel durch Abfolgen von
- langem und kurzem Signal (bspw. bei Morsezeichen),
- hohem und tiefem Ton (bspw. akustische Übertragung bei Faxgeräten),
- hoher und niedriger Spannung (bspw. bei der elektronischen Datenspeicherung).
Binäre Systeme hatten seit jeher eine besondere Bedeutung, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.
Inhaltsverzeichnis
Geschichte
Die Anfänge dieser Technik liegen in der Antike. Zum Beispiel informierte Agamemnon seine Truppen von einem Schiff aus mit dem Licht eines Feuers darüber, dass er die Invasion Trojas starten wollte. Bekannt sind ferner Rauchzeichen bei den Indianern oder Nachrichtenübermittlung durch Trommelzeichen in Afrika.
Insbesondere zur Verständigung von Schiffsverbänden in der Nautik wurden die Techniken später verfeinert. Sir Walter Raleigh erfand für die Verständigung seines Geschwaders auf der Südamerikafahrt 1617 eine Art Vorläufer der Flaggencodierung.
1648 schließlich war es Englands späterer König James II., der das erste Signalflaggensystem in der britischen Marine einführte.
Nach der Erfindung der Telegrafie benötigte man auch hier eine Zeichenkodierung. Aus den ursprünglichen Ideen des Engländers Alfred Brain entstanden 1837 der originale Morsecode und 1844 der modifizierte Morsecode.
Das CCITT (Commité Consultatif International Telegraphique et Telephonique) war schließlich die erste Institution, die einen standardisierten Zeichensatz definierte. Dabei basierte dieser Zeichensatz auf einem von Jean-Maurice-Émile Baudot 1870 entwickelten 5er-Code-Alphabet für seinen Synchrontelegraphen, dem Baudot-Code, dessen Prinzip noch heute verwendet wird.
Computer und Datenaustausch
Mit der Entwicklung des Computers begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer.
Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte Charsets, festgelegt werden. 1963 wurde eine erste 7-Bit-Version des ASCII-Codes durch die ASA (American Standards Association) definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Computertechnik Verwendung.
Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert.
Das Unicode Consortium schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Codeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.
Vor dem Verarbeiten elektronischer Texte muss (sofern die Texte als Bytefolgen gespeichert sind) der verwendete Zeichensatz festgelegt werden. Dazu dienen beispielsweise folgende Angaben:
- Definition des Zeichensatzes in einer HTML-Seite
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
Content-Type: text/plain; charset="ISO-8859-1"
Grafische Darstellung
Das Vorhandensein von Software für Zeichenkodierung und -dekodierung garantiert noch nicht die richtige Darstellung auf dem Computerbildschirm. Zu diesem Zweck muss auch eine Schriftart verfügbar sein, die die Zeichen der Zeichenkodierung enthält.
Siehe auch
Literatur
- Jacques André: Caractères numériques: introduction. In: Cahiers GUTenberg (ISSN 1257-2217) Bd. 26, S. 5–44, (Mai 1997) (in französischer Sprache).
- Johannes Bergerhausen, Siri Poarangan: decodeunicode: Die Schriftzeichen der Welt Hermann Schmidt, Mainz, 2011, ISBN 978-3874398138
- Peter Karow: Digitale Schriften: Darstellung und Formate. 2., verb. Aufl. Springer, Berlin 1992, ISBN 3-540-54917-X.
- Yannis Haralambous: Fonts & encodings: from Unicode to advanced typography and everything in between. Übersetzt von P. Scott Horne. O'Reilly, Beijing 2007, ISBN 0-596-10242-9 (in englischer Sprache).
- Mai-Linh Thi Truong, Jürgen Siebert, Erik Spiekermann (Hrsg.): FontBook – Digital Typeface Compendium, FSI FontShop International, Berlin 2006, ISBN 978-3-930023-04-2 (in englischer Sprache)
Weblinks
- Joel Spolsky: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
- Character Set Converter – Windowsprogramm zum Konvertieren von Zeichensätzen.
Wikimedia Foundation.