- Universal Character Set
-
Der Universal Character Set (UCS) ist eine Zeichenkodierung, die in der internationalen Norm ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.
Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.
Ursprünglich wurden diese beiden Formate definiert:
- UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung der meisten lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT.
- UCS-4: Kodierung in 4 Byte (entspricht UTF-32)
Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die bei Unicode erlaubten 1.112.064 (= 220+216, abzüglich 211 Surrogate-Paare von UTF-16) Zeichen (von U+00000 bis U+0D7FF, sowie U+0E000 bis U+10FFFF) beschränkt.
In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.
Gegenüberstellung der Versionen
- ISO/IEC 10646-1:1993 ≈ Unicode 1.1
- ISO/IEC 10646-1:2000 ≈ Unicode 3.0
- ISO/IEC 10646-2:2001 ≈ Unicode 3.2
- ISO/IEC 10646-3:2003 ≈ Unicode 4.0
- ISO/IEC 10646-4:2008 ≈ Unicode 5.1
Weblinks
- BMP (Basic Multilingual Plane) Kodierung der 65536 Zeichen
- Unicode Relationship to ISO/IEC 10646 (englisch; PDF-Datei; 151 kB)
- Unicode FAQ: What is the difference between UCS-2 and UTF-16? (englisch)
Wikimedia Foundation.