Charset

Charset

Unter Zeichenkodierung (englisch Character encoding, kurz Encoding) versteht man das Darstellen eines Schriftzeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen. Ursprünglich wurden hierfür aber optische, akustische oder elektrische Signale verwendet, in aller Regel durch Abfolgen von

  • langem und kurzem Signal,
  • hohem und tiefem Ton,
  • hoher und niedriger Spannung.

Vorgezogen wurden hier also seit jeher binäre Systeme, da mit steigender Anzahl der Basiselemente des Codes die Gefahr von Verwechslungen steigt.

Inhaltsverzeichnis

Geschichte

Die Anfänge dieser Technik liegen in der Antike. Zum Beispiel informierte Agamemnon seine Truppen von einem Schiff aus mit dem Licht eines Feuers darüber, dass er die Invasion Trojas starten wollte. Bekannt sind ferner Rauchzeichen bei den Indianern oder Nachrichtenübermittlung durch Trommelzeichen in Afrika.

Insbesondere zur Verständigung von Schiffsverbänden in der Nautik wurden die Techniken später verfeinert. Sir Walter Raleigh erfand für die Verständigung seines Geschwaders auf der Südamerikafahrt 1617 eine Art Vorläufer der Flaggencodierung.

1648 schließlich war es Englands späterer König James II., der das erste Signalflaggensystem in der britischen Marine einführte.

Nach der Erfindung der Telegrafie benötigte man auch hier eine Zeichenkodierung. Aus den ursprünglichen Ideen des Engländers Alfred Brain entstanden 1837 der originale Morsecode und 1844 der modifizierte Morsecode.

Das CCITT (Commité Consultatif International Telegraphique et Telephonique) war schließlich die erste Institution, die einen standardisierten Zeichensatz definierte. Dabei basierte dieser Zeichensatz auf einem von Jean-Maurice-Émile Baudot 1870 entwickelten 5er-Code-Alphabet für seinen Synchrontelegraphen, dem Baudot-Code, dessen Prinzip noch heute verwendet wird.

Computer und Datenaustausch

Mit der Entwicklung des Computers begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer.

Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte Charsets, festgelegt werden. 1963 wurde eine erste 7-Bit-Version des ASCII-Codes durch die ASA (American Standards Association) definiert, um eine Vereinheitlichung der Zeichenkodierung zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen 8-Bit-Zeichencode EBCDIC ein. Beide finden bis heute in der Computertechnik Verwendung.

Da für die verschiedenen Sprachen andere diakritische Zeichen benötigt werden, gibt es für Sprachgruppen bestimmte Charsets. Die ISO hat mit der Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert.

Das Unicode Consortium schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Kodeform zu definieren. Unicode ist gleichzeitig die internationale Norm ISO 10646.

Vor dem Verarbeiten elektronischer Texte muss das verwendete Charset eingestellt werden. Dazu dienen beispielsweise folgende Angaben:

  • Definition des Zeichensatzes in einer HTML-Seite
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  • Definition des Zeichensatzes in den Kopfzeilen (Headern) einer E-Mail oder eines HTTP-Dokuments
Content-Type: text/plain; charset="ISO-8859-1"

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Charset detection — Character encoding detection, charset detection, or code page detection is the process of heuristically guessing the character encoding of a series of bytes that represent text. This algorithm usually involves statistical analysis of byte… …   Wikipedia

  • Charset — Codage de caractères Pour l action de cacher le sens de l information, voir chiffrement. Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC… …   Wikipédia en Français

  • charset — noun Short form of character set …   Wiktionary

  • charset — ● ►en n. m. ►CHAR Version anglaise de jeu de caractères …   Dictionnaire d'informatique francophone

  • default charset — numatytoji koduotė statusas T sritis informatika apibrėžtis ↑Koduotė, parenkama tekstui rodyti, kai kartu su juo nėra pateiktos informacijos apie jo koduotę. Pavyzdžiui, kai gaunamas laiškas arba tinklalapis, kurio antraštėje nenurodyta koduotė.… …   Enciklopedinis kompiuterijos žodynas

  • Character encodings in HTML — For a list of character entity references, see List of XML and HTML character entity references. HTML HTML and HTML5 Dynamic HTML XHTML XHTML Mobile Profile and C HTML Canvas element Character encodings Document Object Model Font family HTML… …   Wikipedia

  • mkisofs — Тип Утилиты файловых систем Операционная система UNIX‐подобные Лицензия GNU GPL Сайт cdrecord.berlios.de/old/private/mkisofs.html mkisofs  утилита командной строки из пак …   Википедия

  • New I/O — New I/O, usually called NIO, is a collection of Java programming language APIs that offer features for intensive I/O operations. It was introduced with the J2SE 1.4 release of Java by Sun Microsystems to complement an existing standard I/O. NIO… …   Wikipedia

  • Java Platform, Standard Edition — or Java SE is a widely used platform for programming in the Java language. It is the Java Platform used to deploy portable applications for general use.In practical terms, Java SE consists of a virtual machine, which must be used to run Java… …   Wikipedia

  • Unicode and e-mail — Many E mail clients now offer some support for Unicode in E mail bodies. Most do not send in Unicode by default, but as time passes, more and more systems are likely to be set up with fonts capable of displaying the full range of Unicode… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”