- ISO/IEC 10646
-
Unicode Kodierungen Techniken Der Universal Character Set (UCS) ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.
Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.
Ursprünglich wurden diese beiden Formate definiert:
- UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung aller lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT, Office 2000 und Microsoft SQL 2000 oder höher, implementiert als UCS-2-LE (Unicode Characterset 2 Bytes Little Endian). In dem Codebereich unter 64K wurde aber ein Privatbereich eingerichtet (Private Use Zone). Aus diesem Privatbereich hat man nun 2-mal 1024 Byte abgezweigt als sogenannte Surrogate: High-half zone und Low-half zone of UTF-16 (siehe Weblinks zu BMP). Nimmt man nun 2 Byte aus der niederen Zone und kombiniert sie mit 2 Byte aus der höheren Zone, so kann man den vollen Zeichencode-Bereich von UTF-16 und UTF-8 abdecken und erreicht damit den als Maximum vereinbarten CodePoint-Bereich von 0 bis 1114111. Microsoft Windows ab Version 2000 unterstützt die Verwendung von Surrogaten (GDI). Damit ist UCS2 zwar nicht dasselbe wie UTF-16, aber es ist "UTF-16 Preserving", d. h., da die CodePoints der Surrogate im Privatbereich liegen, wird der Text 1:1 verarbeitet und erst durch das Graphiksystem (GDI = Graphic Device Interface) zu den richtigen Zeichen umgewandelt.
- UCS-4: Kodierung in 4 Byte (entspricht UTF-32)
Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.
In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.
Gegenüberstellung der Versionen
- ISO/IEC 10646-1:1993 ≈ Unicode 1.1
- ISO/IEC 10646-1:2000 ≈ Unicode 3.0
- ISO/IEC 10646-2:2001 ≈ Unicode 3.2
- ISO/IEC 10646-3:2003 ≈ Unicode 4.0
- ISO/IEC 10646-4:2008 ≈ Unicode 5.1
Weblinks
- BMP (Basic Multilingual Plane) Kodierung der 65536 Zeichen
- Unicode Relationship to ISO/IEC 10646 (englisch)
- Unicode FAQ: What is the difference between UCS-2 and UTF-16? (englisch)
- Traduction française officielle de l’ISO/CEI 10646 et Unicode
Wikimedia Foundation.