- Sonderzeichen
-
Sonderzeichen sind Satzzeichen, die nicht zu den „in Schriftzeichen festgehaltenen Lauten des Alphabets“ gehören.
Zu den Sonderzeichen gehören beispielsweise Satzzeichen, Klammern und mathematische Symbole. Auch Diakritika sind Sonderzeichen, z. B. Akut oder Breve (é, ă). Zu den Sonderzeichen werden auch die nicht-druckenden Zeichen gezählt, die bei der Gestaltung einer Druckvorlage als Orientierungshilfe dienen.
In den frühen Zeiten der Informationstechnik war die Beschränkung von Zeichensätzen auf 7 oder 8 Bit technisch bedingt. Um die vielen damit verbundenen Probleme – so musste zur Einführung des Euro-Symbols ein anderes Zeichen aus der 8-Bit-Erweiterung von ASCII aus ISO 8859-15 herausgenommen werden – zu vermeiden, wird heute zunehmend eine höhere Bitzahl je Zeichen verwandt.
Inhaltsverzeichnis
Unicode
Auf modernen Systemen lassen sich auch recht entlegene Sonderzeichen ohne große Umstände benutzen. Dabei haben sich (aus der Not heraus) verschiedene Methoden entwickelt.
Unicode gilt als die modernste und generischste Form der Umsetzung. Jedes Zeichen auf dieser Welt, ob es nun ein Recycling-Symbol oder ein chinesisches Schriftzeichen ist, bekommt einen Platz in den Unicode-Tabellen und wird auf einem Rechner als 1 oder mehr Bytes umfassende Speicherstelle abgebildet. Jedes Unicode-Zeichen hat eine eigene Nummer. In den Zeichentabellen findet sich etwa:
- U+0935 für das Zeichen व.
HTML
In HTML-Dokumenten können Sonderzeichen durch sogenannte Zeichen-Entität-Referenzen (engl.: character entity references, auch Entities genannt) dargestellt werden. Sie beginnen mit einem Und-Zeichen (&) und enden mit einem Semikolon (;), die Zeichenfolge dazwischen bestimmt das Zeichen (amp für das Und-Zeichen selbst, nbsp für ein geschütztes Leerzeichen, gt für das Größer-als-Zeichen).
Eine andere Möglichkeit ist die Angabe der verwendeten Zeichenkodierung im HTML-Dateikopf, z. B.
- <meta http-equiv="content-type" content="text/html; charset=UTF-8">
Dadurch kann der Browser den verwendeten Zeichensatz erkennen und für die Darstellung benutzen, im Beispiel Unicode UTF-8. Somit entfällt die Notwendigkeit der Zeichen-Entity-Referenzen – außer für die HTML-spezifischen Zeichen &, ", ', <, >.
Beide Methoden – Benutzung von Entities und Angabe der Zeichenkodierung – können problemlos gleichzeitig verwendet werden.
LaTeX
Populär zur Erstellung wissenschaftlicher Dokumente ist LaTeX, in denen die Sonderzeichen durch spezielle ASCII-Zeichenketten repräsentiert werden. Bei Umlauten schreibt man beispielsweise einfach vor den Basisvokal das doppelte Hochkomma ("). Auch für TeX und LaTeX gibt es mittlerweile UTF-8-Pakete.
Punycode
Um Umlaute und andere Sonderzeichen in Domainnamen darstellen zu können, hat man das Verfahren Punycode entwickelt, welches zusammen mit Nameprep den Standard für internationalisierte Domain-Namen (IDN) ergibt. Dabei werden Nicht-ASCII-Zeichen durch Bindestriche ersetzt und deren Repräsentation an das Ende des Wortes angehängt.
Siehe auch
Literatur
- Johannes Bergerhausen, Siri Poarangan: decodeunicode: Die Schriftzeichen der Welt Hermann Schmidt, Mainz, 2011, ISBN 978-3874398138
- Helmut Hiller, Stephan Füssel: Wörterbuch des Buches. 7. grundlegend überarbeitete Auflage. Vittorio Klostermann, Frankfurt am Main 2006, ISBN 3-465-03495-3
- Ursula Rautenberg (Hrsg.): Reclams Sachlexikon des Buches. 2. verbesserte Auflage. Philipp Reclam jun., Stuttgart 2003, ISBN 3-15-010542-0
- The Unicode Consortium: The Unicode Standard, Version 6.0.0. The Unicode Consortium, Mountain View CA, 2011, ISBN 978-1-936213-01-6.
Weblinks
-
Wiktionary: Sonderzeichen – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
- UTF-8-Zeichentabelle – Sonderzeichen teilweise mit Tags versehen
- schoenitzer.de – Umgang mit Sonderzeichen in Text- und HTML-Dokumenten sowie in Punycode
- decodeunicode.org – Alle 98.000 Zeichen des Unicode-Standards 5.0 mit Abbildungen und Informationen
Wikimedia Foundation.