Unicode

Unicode
Logo von Unicode

Unicode [ˈjuːnɪkoʊd] ist ein internationaler Standard, in dem langfristig für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, die Verwendung unterschiedlicher und inkompatibler Kodierungen in verschiedenen Ländern oder Kulturkreisen zu beseitigen. Unicode wird ständig um Zeichen weiterer Schriftsysteme ergänzt.

ISO 10646 ist die von ISO verwendete, praktisch bedeutungsgleiche Bezeichnung des Unicode-Zeichensatzes; er wird dort als Universal Character Set (UCS) bezeichnet.

Inhaltsverzeichnis

Geschichte

Herkömmliche Computer-Zeichensätze umfassen nur einen begrenzten Vorrat an Zeichen, bei westlichen Zeichenkodierungen liegt diese Grenze meistens bei 128 (7 Bit) Codepositionen – wie bei dem sehr bekannten ASCII-Standard – oder 256 (8 Bit) Positionen, wie z. B. bei ISO 8859-1 (auch als Latin-1 bekannt) oder EBCDIC. Davon sind nach Abzug der Steuerzeichen 95 Elemente bei ASCII und 191 Elemente bei den 8-Bit ISO-Zeichensätzen als Schrift- und Sonderzeichen darstellbar. Diese Zeichenkodierungen erlauben die gleichzeitige Darstellung nur weniger Sprachen im selben Text, wenn man sich nicht damit behilft, in einem Text verschiedene Schriften mit unterschiedlichen Zeichensätzen zu verwenden. Das behinderte den internationalen Datenaustausch in den 1980er und 1990er Jahren erheblich.

ISO 2022[1] war ein erster Versuch, mehrere Sprachen mit nur einer Zeichenkodierung darstellen zu können. Die Kodierung benutzt Escapesequenzen, um zwischen verschiedenen Zeichensätzen (z. B. zwischen Latin-1 und Latin-2) wechseln zu können. Das System setzte sich jedoch nur in Ostasien durch.[2]

Joseph D. Becker von Xerox schrieb 1988 den ersten Entwurf für einen universalen Zeichensatz. Dieser 16-Bit-Zeichensatz sollte nach den ursprünglichen Plänen lediglich die Zeichen moderner Sprachen kodieren:

“Unicode gives higher priority to ensuring utility for the future than to preserving past antiquities. Unicode aims in the first instance at the characters published in modern text (e.g. in the union of all newspapers and magazines printed in the world in 1988), whose number is undoubtedly far below 214 = 16,384. Beyond those modern-use characters, all others may be defined to be obsolete or rare, these are better candidates for private-use registration than for congesting the public list of generally-useful Unicodes.”

„Unicode stellt einen höheren Anspruch darauf die Verwendbarkeit für die Zukunft sicherzustellen, statt vergangene Altertümlichkeiten zu erhalten. Unicode zielt in erster Linie auf alle Zeichen, die in modernen Texten veröffentlicht werden (etwa in allen Zeitungen und Zeitschriften der Welt des Jahres 1988), deren Anzahl zweifelsfrei weit unter 214 = 16.384 liegt. Weitere Zeichen, die über diese heutigen Zeichen hinaus gehen, können als veraltet oder selten erachtet werden, diese sollten besser über einen privaten Modus registriert werden, statt die öffentliche Liste der allgemein nützlichen Unicodes zu überfüllen.“

Joseph D. Becker[3]

Im Oktober 1991[4] wurde nach mehrjähriger Entwicklungszeit die Version 1.0.0 des Unicode-Standards veröffentlicht, die damals nur die europäischen, nahöstlichen und indischen Schriften kodierte.[5] Erst acht Monate später, nachdem die Han-Vereinheitlichung abgeschlossen war, erschien Version 1.0.1, die erstmals ostasiatische Zeichen kodierte. Mit der Veröffentlichung von Unicode 2.0 im Juli 1996 wurde der Standard von ursprünglich 65.536 Zeichen auf die heutigen 1.114.112 Zeichen, von U+0000 bis U+10FFFF erweitert.[6]

Versionen

Version Datum Schriftsysteme Zeichen Erweiterungen
1.0.0[7] Oktober 1991 24 7.161 erste Version
1.0.1[8] Juni 1992 25 28.359 CJK-Schriftzeichen
1.1[9] Juni 1993 24 34.233 zusätzliche Hangeul-Silbenzeichen, Entfernung der tibetischen Schrift aus dem Unicode-Standard[10]
2.0[11] Juli 1996 25 38.950 neuer Unicode-Block für Hangeul-Silbenzeichen, Wiedereinführung der tibetischen Schrift[10]
2.1[12] Mai 1998 25 38.952 Eurozeichen sowie ein Objektersetzungszeichen
3.0[13] September 1999 38 49.259 Syrische Schrift, Thaana-Alphabet, singhalesische Schrift, birmanische Schrift, äthiopische Schrift, Cherokee-Schrift, Cree-Schrift, Ogam, Runen, Khmer-Schrift, mongolische Schrift, Brailleschrift, Yi, zusätzliche CJK-Schriftzeichen
3.1[14] März 2001 41 94.205 Altitalisches Alphabet, gotisches Alphabet, Mormonen-Alphabet, Notenschrift, weitere CJK-Schriftzeichen
3.2[15] März 2002 45 95.221 Baybayin, Hanunó'o, Buid-Schrift, Tagbanuwa-Schrift
4.0[16] April 2003 52 96.447 Limbu-Schrift, Tai Nüa, Linearschrift B, ugaritische Schrift, Shaw-Alphabet, Osmaniya-Schrift, kyprische Schrift
4.1[17] März 2005 59 97.720 Koptische Schrift (als eigenständig vom griechischen Alphabet), Tai Lü, Lontara, glagolitische Schrift, Nuschuri, Tifinagh-Schrift, Syloti Nagri, Persische Keilschrift, Kharoshthi-Schrift
5.0[18] Juli 2006 64 99.089 N'Ko, balinesische Schrift, Phagpa-Schrift, phönizische Schrift, Keilschrift
5.1[19] April 2008 75 100.713 Sundanesische Schrift, Lepcha-Schrift, Ol Chiki, Vai-Schrift, Saurashtra-Schrift, Kayah Li, Rejang-Schrift, Cham-Schrift, lykische Schrift, karische Schrift, lydische Schrift
5.2[20] Oktober 2009 90 107.361 Samaritanische Schrift, Lanna-Schrift, Fraser-Alphabet, Bamoun-Schrift, javanische Schrift, Tai-Viet-Schrift, Meitei-Mayek, aramäische Schrift, altsüdarabische Schrift, avestische Schrift, parthische Schrift, Pahlavi-Schrift, Orchon-Runen, Kaithi-Schrift, ägyptische Hieroglyphen, zusätzliche CJK-Schriftzeichen
6.0[21] Oktober 2010 93 109.242 Batak-Schrift, Brahmi-Schrift, mandäische Schrift, Emoji

Inhalt des Unicode-Standards

Das Unicode-Konsortium stellt mehrere Dokumente zur Unterstützung von Unicode bereit. Neben dem eigentlichen Zeichensatz sind dies des Weiteren auch andere Dokumente, die zwar nicht zwingend notwendig, aber dennoch hilfreich zur Interpretration des Unicode-Standards sind.

Gliederung

Grafische Darstellung der Basic Multilingual Plane

Im Gegensatz zu früheren Zeichenkodierungen, die meist nur ein bestimmtes Schriftsystem kodierten, ist es das Ziel von Unicode, alle in Gebrauch befindlichen Schriftsysteme und Zeichen zu kodieren.[22] Der Unicode-Standard ist dazu in 17 Bereiche (englisch planes) gegliedert, die je 65.536 Zeichen umfassen.[23] Sechs verschiedene Bereiche werden bereits verwendet, die restlichen sind für spätere Nutzung reserviert:

  • Die Basic Multilingual Plane (BMP, deutsch Grundlegender mehrsprachiger Codebereich, auch als Plane 0 bezeichnet, enthält hauptsächlich Schriftsysteme, die aktuell in Gebrauch sind, Satzzeichen und Symbole, Kontrollzeichen und Surrogate-Paare, und einen Bereich für private Nutzung.[23] Der Block ist stark fragmentiert und größtenteils belegt, so dass umfangreichere Schriftsysteme nicht mehr Platz finden. Der Zugriff auf andere Planes als Plane 0 ist in manchen Programmen noch nicht oder nur eingeschränkt möglich.
  • Die Supplementary Multilingual Plane (SMP, deutsch Ergänzender mehrsprachiger Bereich, auch als Plane 1 bezeichnet) wurde mit Unicode 3.1 eingeführt. Sie enthält vor allem historische Schriftsysteme, aber auch größere Ansammlungen an Zeichen, die selten in Gebrauch sind, wie z. B. Domino- und Mahjonggsteine. Zur Kodierung geplant sind auch Schriftsysteme, die zwar noch in Benutzung sind, aber zu groß für die BMP sind.[23]
  • Die Supplementary Ideographic Plane (SIP, deutsch Ergänzender ideographischer Bereich, auch als Plane 2 bezeichnet), die ebenfalls mit Unicode 3.1 eingeführt wurde, enthält ausschließlich CJK-Schriftzeichen, die selten benutzt werden, dazu zählen unter anderem auch die Chữ nôm, die früher in Vietnam benutzt wurden.[23] Sollte dieser Bereich nicht ausreichen, ist Plane 3 für weitere CJK-Schriftzeichen reserviert.[24]
  • Die Supplementary Special-purpose Plane (SSP, deutsch Ergänzender Bereich für spezielle Verwendungen, auch als Plane 14 bezeichnet) enthält einige wenige Kontrollzeichen zur Sprachmarkierung.[23]
  • Die letzten beiden Codebereiche, jeweils Supplementary Private Use Area-A und -B (PUA, auch Plane 15 und Plane 16), stehen für private Nutzung zur Verfügung.[25]

Innerhalb dieser Bereiche werden zusammengehörende Zeichen in Blöcken (engl. blocks) zusammengefasst. Meist behandelt ein Unicode-Block ein Schriftsystem, aus historischen Gründen hat sich allerdings ein gewisses Maß an Fragmentierung eingestellt. Oft wurden später noch Zeichen hinzugefügt und in anderen Blöcken als Ergänzung untergebracht.[25]

Zeichen

Jedes Zeichen im Unicode-Standard ist einem der 1.114.112 Codepunkte (englisch codepoints) zugeordnet. Diese werden hexadezimal mit vorangestelltem U+ dargestellt, z. B. U+00DF für das ß.[26]

Kodierung

Neben dem eigentlichen Zeichensatz sind auch eine Reihe von Zeichenkodierungen definiert, die den Unicode-Zeichensatz implementieren und die benutzt werden können, um den vollen Zugriff auf alle Unicode-Zeichen zu haben. Sie werden Unicode Transformation Format (kurz UTF) genannt; am weitesten verbreitet sind zum einen UTF-16, das sich als interne Zeichendarstellung einiger Betriebssysteme (Windows[27], OS X) und Softwareentwicklungs-Frameworks (Java[28], .NET[29]) etabliert hat, zum anderen UTF-8, das ebenfalls in Betriebssystemen (GNU/Linux, Unix) sowie in verschiedenen Internetdiensten (E-Mail, WWW) eine große Rolle spielt. Basierend auf dem proprietären EBCDIC-Format von IBM-Großrechnern ist die UTF-EBCDIC-Kodierung definiert. Punycode dient dazu, Domainnamen mit Nicht-ASCII-Zeichen zu kodieren. Weitere Formate zur Kodierung von Unicode-Zeichen sind u.a. CESU-8 und GB 18030.

Unicode-Normalisierung

Viele Zeichen, die im Unicode-Standard enthalten sind, sind sogenannte Kompatibilitätszeichen, die aus Unicode-Sicht bereits mit anderen in Unicode kodierten Zeichen bzw. Zeichensequenzen dargestellt werden können, so z. B. die deutschen Umlaute, die theoretisch mit einer Sequenz aus dem Basisbuchstaben und einem kombinierenden Trema dargestellt werden können. Bei der Unicode-Normalisierung werden die Kompatibilitätszeichen automatisch durch die in Unicode vorgesehenen Sequenzen ersetzt. Dies erleichtert die Verarbeitung von Unicode-Texten erheblich, da so nur eine mögliche Kombination für ein bestimmtes Zeichen steht, und nicht mehrere verschiedene.[30]

Unicode-Sortierungsalgorithmus

Die Zeichen eines Schriftsystems sind in Unicode wild verstreut und manchmal auch in der falschen Reihenfolge kodiert, was die Sortierung der Zeichen bspw. in einer Datenbank erschwert. Um dieses Problem zu dämpfen, definiert der Unicode-Sortierungsalgorithmus eine Reihenfolge, nach der Zeichen eines bestimmten Schriftsystems sortiert werden sollen.[31]

Komprimierung

Um in Unicode dargestellte Daten komprimieren zu können, wurde das sogenannte Standard Compression Scheme for Unicode (SCSU, deutsch Standard-Kompressionsschema für Unicode) als eine Methode zur platzsparenden Speicherung entwickelt.[32] Aufgrund zahlreicher Unzulänglichkeiten konnte sich diese Kompressionsmethode jedoch kaum durchsetzen[33], dennoch wird sie unter anderem vom Microsoft SQL Server verwendet und erreicht dort Kompressionsraten zwischen 15 und 50 Prozent.[34]

Normierungsinstitutionen

Das gemeinnützige Unicode Consortium wurde 1991 gegründet und ist für den Industriestandard Unicode verantwortlich. Von der ISO (Internationale Organisation für Normung) wird in Zusammenarbeit mit IEC die internationale Norm ISO 10646 herausgegeben. Beide Institutionen arbeiten eng zusammen. Seit 1993 sind Unicode und ISO 10646 bezüglich der Zeichenkodierung praktisch identisch. Während ISO 10646 lediglich die eigentliche Zeichenkodierung festlegt, gehört zum Unicode ein umfassendes Regelwerk, das unter anderem für alle Zeichen weitere zur konkreten Anwendung wichtige Eigenschaften (sogenannte Properties) eindeutig festlegt wie Sortierreihenfolge, Leserichtung und Regeln für das Kombinieren von Zeichen.[35]

Seit einiger Zeit entspricht der Codeumfang von ISO 10646 exakt dem von Unicode, da auch dort der Codebereich auf 17 Planes, darstellbar mit 21 Bit, beschränkt wurde.[36]

Kodierungskriterien

Gegenüber anderen Normen gibt es bei Unicode die Besonderheit, dass einmal kodierte Zeichen niemals wieder entfernt werden, um die Langlebigkeit digitaler Daten zu gewährleisten.[37] Sollte sich die Normierung eines Zeichens nachträglich als Fehler erweisen, wird allenfalls von seiner Verwendung abgeraten. Daher bedarf die Aufnahme eines Zeichens in den Standard einer äußerst sorgfältigen Prüfung, die sich über Jahre hinziehen kann.

Im Unicode werden lediglich „abstrakte Zeichen“ (englisch: characters) kodiert, nicht dagegen die grafische Darstellung (Glyphen) dieser Zeichen, die von Schriftart zu Schriftart extrem unterschiedlich ausfallen kann, beim lateinischen Alphabet etwa in Form der Antiqua, Fraktur, der irischen Schrift oder der verschiedenen Handschriften.[38] Für Glyphenvarianten, deren Normierung als sinnvoll und notwendig nachgewiesen wird, sind dabei allerdings vorsorglich 256 „Variation Selectors“ reserviert, die ggf. dem eigentlichen Code nachgestellt werden können. In vielen Schriftsystemen können Zeichen außerdem je nach Position unterschiedliche Formen annehmen oder Ligaturen bilden. Von Ausnahmen abgesehen (z. B. Arabisch) werden solche Varianten ebenfalls nicht in den Unicode-Standard übernommen, sondern es wird eine sogenannte Smartfont-Technik wie OpenType vorausgesetzt, die die Formen angemessen ersetzen kann.

Andererseits werden identische Glyphen, wenn sie verschiedene Bedeutungen haben, auch mehrfach kodiert, etwa die Glyphen А, В, Е, K, М, Н, О, Р, Т und Х, die – mit zum Teil unterschiedlicher Bedeutung – sowohl im lateinischen als auch im griechischen und kyrillischen Alphabet vorkommen.

In Grenzfällen wird hart um die Entscheidung gerungen, ob es sich um Glyphenvarianten oder tatsächlich unterschiedliche, einer eigenen Kodierung würdige Zeichen (Grapheme) handelt. Beispielsweise sind nicht wenige Fachleute der Meinung, man könne das phönizische Alphabet als Glyphenvarianten des hebräischen Alphabets betrachten, da der gesamte Zeichenvorrat des Phönizischen dort eindeutige Entsprechungen hat und auch beide Sprachen sehr eng miteinander verwandt sind. Letztlich durchgesetzt hat sich allerdings schließlich die Auffassung, es handele sich um separate Zeichensysteme, in der Unicode-Terminologie „scripts“ genannt.[39]

Anders verhält es sich bei CJK (Chinesisch, Japanisch und Koreanisch): Hier haben sich in den letzten Jahrhunderten die Formen vieler gleichbedeutender Schriftzeichen auseinanderentwickelt. Dennoch teilen sich die sprachspezifischen Glyphen dieselben Codes im Unicode (mit Ausnahme einiger Zeichen aus Kompatibilitätsgründen). In der Praxis werden hier überwiegend sprachspezifische Schriftarten verwendet, wodurch der Platzbedarf der Schriften zusammen hoch ist. Die einheitliche Kodierung der CJK-Schriftzeichen (Han Unification) war eine der wichtigsten und umfangreichsten Vorarbeiten für die Entwicklung von Unicode. Besonders in Japan ist sie durchaus umstritten.

Als der Grundstein für Unicode gelegt wurde, musste berücksichtigt werden, dass bereits eine Vielzahl unterschiedlicher Kodierungen im Einsatz waren. Unicode-basierte Systeme sollten herkömmlich kodierte Daten mit geringem Aufwand handhaben können. Dazu wurde für die unteren 256 Zeichen die weit verbreitete ISO 8859-1-Kodierung (Latin1) ebenso wie die Kodierungsarten verschiedener nationaler Normen beibehalten, z. B. TIS-620 für Thailändisch (fast identisch mit ISO 8859-11) oder ISCII für indische Schriften, die in der ursprünglichen Reihenfolge lediglich in höhere Codebereiche verschoben wurden.

Jedes Zeichen maßgeblicher überkommener Kodierungen wurde in den Standard übernommen, auch wenn es den normalerweise angelegten Maßstäben nicht gerecht wird. Hierbei handelt es sich zu einem großen Teil um Zeichen, die aus zwei oder mehr Zeichen zusammengesetzt sind, wie Buchstaben mit diakritischen Zeichen. Im übrigen verfügt auch heute noch ein großer Teil der Software nicht über die Möglichkeit, Zeichen mit Diakritika ordentlich zusammenzusetzen. Die exakte Festlegung von äquivalenten Kodierungen ist Teil des zum Unicode gehörenden umfangreichen Regelwerks.

Darüber hinaus gibt es viele Unicode-Zeichen, denen keine Glyphe zugeordnet ist und die trotzdem als „characters“ behandelt werden. So sind neben Steuerzeichen wie dem Tabulator (U+0009), dem Zeilenvorschub (U+000A) usw. allein 19 verschiedene Zeichen explizit als Leerzeichen definiert, sogar solche ohne Breite, die u. a. für Sprachen wie Thai, die ohne Wortzwischenraum geschrieben werden, als Worttrenner eingesetzt werden. Für bidirektionalen Text, z. B. Arabisch mit Lateinisch, sind sieben Formatierungszeichen kodiert. Darüber hinaus gibt es weitere unsichtbare Zeichen, die nur unter bestimmten Umständen ausgewertet werden sollen, etwa der Combining Grapheme Joiner.

Darstellung auf dem Computer

Eingabemethoden

HTML und XML unterstützen Unicode mit Zeichencodes, die unabhängig vom eingestellten Zeichensatz das Unicode-Zeichen darstellen. Die Notation lautet &#0000; für dezimale Notation bzw. &#x0000; für hexadezimale Notation, wobei das 0000 die Unicode-Nummer des Zeichens darstellt. Für bestimmte Zeichen sind auch benannte Zeichen (englisch named entities) definiert, so z. B. stellt &auml; das ä dar,[40] das gilt allerdings nur für HTML; XML und das davon abgeleitete XHTML definieren benannte Notationen nur für die Zeichen, die bei normalem Gebrauch als Teile der Auszeichnungssprache interpretiert würden, also < als &lt;, > als &gt;, & als &amp; und " als &quot;.

GTK+, Qt und alle darauf basierenden Programme und Umgebungen (wie beispielsweise die Desktopumgebung GNOME) unterstützen die Eingabe über die Kombination Strg+Umschalttaste bzw. in neueren Versionen Strg+U bzw. Strg+Umschalttaste+U. Nach dem Drücken der Tasten erscheint ein unterstrichenes kleines u. Danach kann der Unicode in hexadezimaler Form eingegeben werden und wird auch unterstrichen, damit man erkennen kann, was zum Unicode gehört. Nach einem Druck der Leer- oder Eingabetaste erscheint dann das entsprechende Zeichen.

Im Texteditor Vim können Unicode-Zeichen mit Strg+v, gefolgt von der Taste u und dem Unicode in hexadezimaler Form, eingegeben werden.

Unter Windows (ab Windows 2000) kann in einigen Programmen (genauer in RichEdit-Feldern) der Code dezimal als Alt+<dezimales Unicode> auf dem numerischen Tastaturfeld eingegeben werden.

Eine Möglichkeit in älteren Versionen von Microsoft Word ist, mit „Einfügen“ – „Sonderzeichen“ eine Tabelle mit Unicode-Zeichen aufzurufen, darin mit dem Cursor ein gewünschtes auszusuchen und in den Text einzufügen. Das Programm ermöglicht auch, für häufiger benötigte Zeichen Makros festzulegen, die dann mit einer Tastenkombination abgerufen werden können.

Ab Microsoft Word 2002 kann Unicode auch hexadezimal eingegeben werden, indem im Dokument <Unicode> oder U+<Unicode> eingetippt wird und anschließend die Tastenkombination Alt+C im Dokument bzw. Alt+X in Dialogfeldern gedrückt wird. Diese Tastenkombination kann auch benutzt werden, um den Code des vor dem Cursor stehenden Zeichens anzuzeigen.[41]

Seit Windows NT 4.0 ist das Programm charmap.exe, genannt Zeichentabelle, in Windows integriert. Mit diesem Programm ist über eine grafische Benutzeroberfläche möglich, Unicode-Zeichen einzufügen. Außerdem bietet es ein Eingabefeld für den Hexadezimalcode.

Bei Apple-Computern muss die Unicode-Hex-Tastenbelegung aktiviert werden. Danach wird der Code bei gedrückter Alt-Taste eingegeben.

Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint, hängt davon ab, ob die verwendete Schriftart eine Glyphe für das gewünschte Zeichen (also eine Grafik für die gewünschte Zeichennummer) enthält. Oftmals, z. B. unter Windows, wird, falls die verwendete Schrift ein Zeichen nicht enthält, nach Möglichkeit ein Zeichen aus einer anderen Schrift eingefügt. In der Typografie gilt so etwas als Fehler namens Zwiebelfisch, z. B. wenn in einem lateinischen Sans-Serif-Text plötzlich ein griechisches Wort in Serifen gesetzt wird.

Schriftarten

Mittlerweile hat der Coderaum von Unicode/ISO einen Umfang angenommen (mehr als 100.000 Schriftzeichen), der sich nicht mehr vollständig in einer Schriftdatei unterbringen lässt. Die heute gängigsten Schriftdateiformate, TrueType und OpenType, können maximal 65.536 Zeichen enthalten. Unicode/ISO-Konformität einer Schrift bedeutet also nicht, dass der komplette Zeichensatz enthalten ist, sondern lediglich, dass die darin enthaltenen Zeichen normgerecht kodiert sind. Die derzeit umfangreichste Schrift ist die in drei Dateien aufgeteilte Shareware Code2000 bis Code2002 von James Kass.[42] Auch diese bildet jedoch nicht jedes Unicode-Zeichen ab.

Software

Die freien Programme gucharmap und kcharselect (für Linux/UNIX) stellen den Unicode-Zeichensatz auf dem Bildschirm dar und bieten zusätzliche Informationen zu den einzelnen Zeichen.

Microsoft Windows liefert entsprechend charmap.exe (Zeichentabelle) mit. Komfortabler kann man Unicode-Zeichen mit der kostenlosen Software BabelMap (für Windows)[43] suchen und eingeben. Das Unicode Consortium bietet inzwischen auch einen Browser an.[44] Unter Apple Mac OS X steht unter BearbeitenSonderzeichen ebenfalls eine systemweite Zeichenpalette bereit.

Kritik

Unicode wird vor allem von Wissenschaftlern und in ostasiatischen Ländern scharf kritisiert. Einer der bekanntesten Kritikpunkte ist die Han-Vereinheitlichung, aus ostasiatischer Sicht werden bei diesem Vorgehen Schriftzeichen verschiedener nicht verwandter Sprachen vereinigt[45]. Vor allem in Japan konnte sich Unicode kaum durchsetzen[6] – dies liegt einerseits daran, dass Unicode aufgrund seines Ursprungs als Konsortium amerikanischer Unternehmen ein niederes Image hat[6], andererseits wird kritisiert, dass antike Texte in Unicode aufgrund der Vereinheitlichung ähnlicher CJK-Schriftzeichen nicht originalgetreu wiedergegeben werden können.[46] Aufgrund dessen wurden in Japan zahlreiche Alternativen zu Unicode wie etwa der Mojikyō-Standard entwickelt.

Die Kodierung der thailändischen Schrift wird teilweise kritisiert, weil sie anders als alle anderen Schriftsysteme in Unicode nicht auf logischer, sondern auf visueller Reihenfolge basiert, was unter anderem die Sortierung thailändischer Wörter erheblich erschwert.[45] Die Unicode-Kodierung basiert auf dem thailändischen Standard TIS-620, der ebenfalls die visuelle Reihenfolge verwendet.[47] Umgekehrt wird die Kodierung der anderen indischen Schriften manchmal als „zu kompliziert“ bezeichnet, vor allem von Vertretern der Tamil-Schrift. Das Modell von separaten Konsonanten- und Vokalzeichen, welches Unicode vom indischen Standard ISCII adoptiert hat[48], wird von ihnen abgelehnt, die lieber separate Codepunkte für alle möglichen Konsonant-Vokal-Verbindungen bevorzugen.[49] Die Regierung der Volksrepublik China machte einen ähnlichen Vorschlag, die tibetische Schrift als Silbenfolgen anstelle als einzelne Konsonanten und Vokale zu kodieren.[50]

Siehe auch

 Portal:Unicode – Übersicht zu Wikipedia-Inhalten zum Thema Unicode

Literatur

  • Johannes Bergerhausen, Siri Poarangan: decodeunicode: Die Schriftzeichen der Welt. Hermann Schmidt, Mainz 2011, ISBN 9783874398138.
  • Julie D. Allen: The Unicode Standard, version 6.0. The Unicode Consortium. The Unicode Consortium, Mountain View 2011, ISBN 9781936213016 (Online-Version).
  • Richard Gillam: Unicode Demystified: a practical programmer’s guide to the encoding standard. Addison Wesley, Boston 2003, ISBN 0201700522.

Weblinks

Wiktionary Wiktionary: Unicode – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
 Commons: Unicode – Unicode-Zeichen als SVG

Einzelnachweise

  1. Dieser Standard ist identisch zu ECMA 35, einem Standard von Ecma International.
  2. Internationalisation and the Web
  3. Unicode 88 – Joseph D. Becker, Ph.D. – August 29, 1988
  4. History of Unicode Release and Publication Dates
  5. Chronology of Unicode Version 1.0
  6. a b c Unicode in Japan: Guide to a technical and psychological struggle (im Internet Archive)
  7. UnicodeData.txt (1.0.0)
  8. UnicodeData.txt (1.0.1)
  9. UnicodeData.txt (1.1)
  10. a b BabelStone: What’s new in Unicode 5.1 ?
  11. UnicodeData.txt (2.0)
  12. UTR #8: The Unicode Standard®, Version 2.1
  13. Unicode 3.0.0
  14. UAX #27: Unicode 3.1
  15. UTR #28: Unicode 3.2
  16. Unicode 4.0.0
  17. Unicode 4.1.0
  18. Unicode 5.0.0
  19. Unicode 5.1.0
  20. Unicode 5.2.0
  21. Unicode 6.0.0
  22. What is Unicode?
  23. a b c d e The Unicode Standard, S. 33
  24. Roadmap to the SIP
  25. a b The Unicode Standard, S. 34
  26. The Unicode Standard, S. 21f
  27. Character Sets
  28. Internationalization FAQ
  29. Unicode in the .NET Framework
  30. UAX #15: Unicode Normalization Forms
  31. UTS #10: Unicode Collation Algorithm
  32. UTS #6: Compression Scheme for Unicode
  33. A survey of Unicode compression - Doug Ewell, January 30, 2004
  34. Unicode Compression Implementation - SQL Server 2008 R2
  35. FAQ – Unicode and ISO 10646
  36. The Unicode Standard, S. 573
  37. Unicode Character Encoding Stability Policy
  38. Unicode Technical Report #17 – Character Encoding Model
  39. Response to the revised “Final proposal for encoding the Phoenician script in the UCS” (L2/04-141R2)
  40. Character entity references in HTML 4
  41. Tastenkombinationen für internationale Zeichen
  42. Unicode Support in Your Browser
  43. BabelMap (Unicode Character Map Utility)
  44. Unibook Character Browser
  45. a b The secret life of Unicode
  46. Han Unification in Unicode - Otfried Cheong, October 12, 1999
  47. The Unicode Standard, S. 350
  48. The Unicode Standard, S. 268
  49. Evolution of the 16 Bit Encoding Scheme for Tamil
  50. BabelStone: Precomposed Tibetan Part 1 : BrdaRten

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Unicode — est une norme informatique, développée par le Consortium Unicode, qui vise à permettre le codage de texte écrit en donnant à tout caractère de n’importe quel système d’écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle… …   Wikipédia en Français

  • UNICODE — Юникод, или Уникод (англ. Unicode)  стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… …   Википедия

  • Unicode — Юникод, или Уникод (англ. Unicode)  стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… …   Википедия

  • Unicode — es una norma de codificación de caracteres. Su objetivo es asignar a cada posible carácter de cada posible lenguaje un número y nombre único, a diferencia de la mayor parte de los juegos ISO como el ISO 8859 1, que sólo definen los necesarios… …   Enciclopedia Universal

  • Unicode —   [dt. »ein (einziger) Code«], ein 1996 veröffentlichter Standard für Zeichensätze, die anerkannte Implementierung der internationalen Norm ISO/IEC 10646. Der Unicode Standard wird von einem Konsortium weiterentwickelt, dem fast 100 Firmen und… …   Universal-Lexikon

  • Unicode — /ūˈni kōd/ noun (computing) An international standard for representing symbols and characters in 16 bit codes, with space for all foreseeable languages and symbols ORIGIN: ↑uni or ↑unique …   Useful english dictionary

  • Unicode — For the 1889 Universal Telegraphic Phrase book, see Commercial code (communications). The Unicode official logo since October 2009 …   Wikipedia

  • Unicode — El Estándar Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas además de textos clásicos de lenguas muertas …   Wikipedia Español

  • Unicode — International character encoding system designed to support the electronic interchange, processing, and display of the written texts of the diverse languages of the modern and classical world. The Unicode Worldwide Character Standard includes… …   Universalium

  • Unicode —    A 16 bit character code, defined by the Unicode Consortium and by ISO 10646, that supports a maximum of 65,536 unique characters rather than the 256 characters available in the current ASCII character set.    By using two bytes to represent… …   Dictionary of networking

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”