- Zeichencodierung
-
Unter Zeichenkodierung (englisch Character encoding, kurz Encoding) versteht man das Darstellen eines Schriftzeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen. Ursprünglich wurden hierfür aber optische, akustische oder elektrische Signale verwendet, in aller Regel durch Abfolgen von
- langem und kurzem Signal,
- hohem und tiefem Ton,
- hoher und niedriger Spannung.
Vorgezogen wurden hier also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.
Inhaltsverzeichnis
Geschichte
Die Anfänge dieser Technik liegen in der Antike. Zum Beispiel informierte Agamemnon seine Truppen von einem Schiff aus mit dem Licht eines Feuers darüber, dass er die Invasion Trojas starten wollte. Bekannt sind ferner Rauchzeichen bei den Indianern oder Nachrichtenübermittlung durch Trommelzeichen in Afrika.
Insbesondere zur Verständigung von Schiffsverbänden in der Nautik wurden die Techniken später verfeinert. Sir Walter Raleigh erfand für die Verständigung seines Geschwaders auf der Südamerikafahrt 1617 eine Art Vorläufer der Flaggencodierung.
1648 schließlich war es Englands späterer König James II., der das erste Signalflaggensystem in der britischen Marine einführte.
Nach der Erfindung der Telegrafie benötigte man auch hier eine Zeichenkodierung. Aus den ursprünglichen Ideen des Engländers Alfred Brain entstanden 1837 der originale Morsecode und 1844 der modifizierte Morsecode.
Das CCITT (Commité Consultatif International Telegraphique et Telephonique) war schließlich die erste Institution, die einen standardisierten Zeichensatz definierte. Dabei basierte dieser Zeichensatz auf einem von Jean-Maurice-Émile Baudot 1870 entwickelten 5er-Code-Alphabet für seinen Synchrontelegraphen, dem Baudot-Code, dessen Prinzip noch heute verwendet wird.
Computer und Datenaustausch
Mit der Entwicklung des Computers begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer.
Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte Charsets, festgelegt werden. 1963 wurde eine erste 7-Bit-Version des ASCII-Codes durch die ASA (American Standards Association) definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Computertechnik Verwendung.
Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert.
Das Unicode Consortium schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Kodeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.
Vor dem Verarbeiten elektronischer Texte muss das verwendete Charset eingestellt werden. Dazu dienen beispielsweise folgende Angaben:
- Definition des Zeichensatzes in einer HTML-Seite
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
Content-Type: text/plain; charset="ISO-8859-1"
Siehe auch
Weblinks
- schoenitzer.de – Grundwissen und Umgang mit Encodings
- Joel Spolsky: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
- Character Set Converter – Windowsprogramm zum Konvertieren von Zeichensätzen.
Wikimedia Foundation.