Zeichencodierung

Unter Zeichenkodierung (englisch Character encoding, kurz Encoding) versteht man das Darstellen eines Schriftzeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen. Ursprünglich wurden hierfür aber optische, akustische oder elektrische Signale verwendet, in aller Regel durch Abfolgen von

langem und kurzem Signal,
hohem und tiefem Ton,
hoher und niedriger Spannung.

Vorgezogen wurden hier also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.

Geschichte

Die Anfänge dieser Technik liegen in der Antike. Zum Beispiel informierte Agamemnon seine Truppen von einem Schiff aus mit dem Licht eines Feuers darüber, dass er die Invasion Trojas starten wollte. Bekannt sind ferner Rauchzeichen bei den Indianern oder Nachrichtenübermittlung durch Trommelzeichen in Afrika.

Insbesondere zur Verständigung von Schiffsverbänden in der Nautik wurden die Techniken später verfeinert. Sir Walter Raleigh erfand für die Verständigung seines Geschwaders auf der Südamerikafahrt 1617 eine Art Vorläufer der Flaggencodierung.

1648 schließlich war es Englands späterer König James II., der das erste Signalflaggensystem in der britischen Marine einführte.

Nach der Erfindung der Telegrafie benötigte man auch hier eine Zeichenkodierung. Aus den ursprünglichen Ideen des Engländers Alfred Brain entstanden 1837 der originale Morsecode und 1844 der modifizierte Morsecode.

Das CCITT (Commité Consultatif International Telegraphique et Telephonique) war schließlich die erste Institution, die einen standardisierten Zeichensatz definierte. Dabei basierte dieser Zeichensatz auf einem von Jean-Maurice-Émile Baudot 1870 entwickelten 5er-Code-Alphabet für seinen Synchrontelegraphen, dem Baudot-Code, dessen Prinzip noch heute verwendet wird.

Computer und Datenaustausch

Mit der Entwicklung des Computers begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer.

Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte Charsets, festgelegt werden. 1963 wurde eine erste 7-Bit-Version des ASCII-Codes durch die ASA (American Standards Association) definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Computertechnik Verwendung.

Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert.

Das Unicode Consortium schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Kodeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.

Vor dem Verarbeiten elektronischer Texte muss das verwendete Charset eingestellt werden. Dazu dienen beispielsweise folgende Angaben:

Definition des Zeichensatzes in einer HTML-Seite

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

Definition des Zeichensatzes in den Kopfzeilen (Headern) einer E-Mail oder eines HTTP-Dokuments

Content-Type: text/plain; charset="ISO-8859-1"

Siehe auch

Weblinks

schoenitzer.de – Grundwissen und Umgang mit Encodings
Joel Spolsky: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
Character Set Converter – Windowsprogramm zum Konvertieren von Zeichensätzen.

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Textdatei — Die 95 druckbaren Zeichen des ursprünglichen ASCII Als Textdatei wird in der Informationstechnik eine Datei bezeichnet, deren Inhalt aus darstellbaren Zeichen besteht. Die Datei kann durch Steuerzeichen wie Zeilen und Seitenwechsel untergliedert… … Deutsch Wikipedia
.txt — Die 95 druckbaren Zeichen des ursprünglichen ASCII Als Textdatei bezeichnet man in der Informationstechnik eine Datei, deren Inhalt eine sequentielle Folge von Zeichen darstellt, die durch Zeilen und Seitenwechsel untergliedert sein können. Das… … Deutsch Wikipedia
ASCII-Datei — Die 95 druckbaren Zeichen des ursprünglichen ASCII Als Textdatei bezeichnet man in der Informationstechnik eine Datei, deren Inhalt eine sequentielle Folge von Zeichen darstellt, die durch Zeilen und Seitenwechsel untergliedert sein können. Das… … Deutsch Wikipedia
Textfile — Die 95 druckbaren Zeichen des ursprünglichen ASCII Als Textdatei bezeichnet man in der Informationstechnik eine Datei, deren Inhalt eine sequentielle Folge von Zeichen darstellt, die durch Zeilen und Seitenwechsel untergliedert sein können. Das… … Deutsch Wikipedia
! — Satzzeichen , –, , ― . , , , ; , : , … , · ¿, ?, !, ¡, ‽, ؟ „…“, »…« …, ’ … Deutsch Wikipedia
Ausrufezeichen — ! Satzzeichen Punkt ( . ) Komma ( , ) Semikolon ( ; ) Doppelpunkt ( : ) … Deutsch Wikipedia
Ausrufzeichen — Satzzeichen , –, , ― . , , , ; , : , … , · ¿, ?, !, ¡, ‽, ؟ „…“, »…« …, ’ … Deutsch Wikipedia
CRLF — <LF> Der Zeilenvorschub (engl. line feed, kurz LF, deutsch veraltet auch ZL) ist auf Ausgabegeräten für Text die Anweisung, die nächste Zeile anzusteuern. Der Zeilenvorschub ist vom Zeichen Wagenrücklauf (CR), und vom Zeilenumbruch der… … Deutsch Wikipedia
Carriage Return — <CR> Der Wagenrücklauf (englisch carriage return deutsch veraltet auch WR) ist auf Ausgabegeräten für Text die Anweisung, den Anfang der Zeile anzusteuern. Inhaltsverzeichnis 1 Schreibmaschinen 2 Fernschreiber 3 Computer … Deutsch Wikipedia
Carriage return — <CR> Der Wagenrücklauf (englisch carriage return deutsch veraltet auch WR) ist auf Ausgabegeräten für Text die Anweisung, den Anfang der Zeile anzusteuern. Inhaltsverzeichnis 1 Schreibmaschinen 2 Fernschreiber 3 Computer … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Zeichencodierung

Inhaltsverzeichnis

Geschichte

Computer und Datenaustausch

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Zeichencodierung

Inhaltsverzeichnis

Geschichte

Computer und Datenaustausch

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link