UCS2

UCS2
Unicode-Logo Unicode
Kodierungen
Techniken

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung aller lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT, Office 2000 und Microsoft SQL 2000 oder höher, implementiert als UCS-2-LE (Unicode Characterset 2 Bytes Little Endian). In dem Codebereich unter 64K wurde aber ein Privatbereich eingerichtet (Private Use Zone). Aus diesem Privatbereich hat man nun 2-mal 1024 Byte abgezweigt als sogenannte Surrogate: High-half zone und Low-half zone of UTF-16 (siehe Weblinks zu BMP). Nimmt man nun 2 Byte aus der niederen Zone und kombiniert sie mit 2 Byte aus der höheren Zone, so kann man den vollen Zeichencode-Bereich von UTF-16 und UTF-8 abdecken und erreicht damit den als Maximum vereinbarten CodePoint-Bereich von 0 bis 1114111. Microsoft Windows ab Version 2000 unterstützt die Verwendung von Surrogaten (GDI). Damit ist UCS2 zwar nicht dasselbe wie UTF-16, aber es ist "UTF-16 Preserving", d. h., da die CodePoints der Surrogate im Privatbereich liegen, wird der Text 1:1 verarbeitet und erst durch das Graphiksystem (GDI = Graphic Device Interface) zu den richtigen Zeichen umgewandelt.
  • UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.

Gegenüberstellung der Versionen

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0
  • ISO/IEC 10646-4:2008 ≈ Unicode 5.1

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • ISO/IEC 10646 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • ISO 10646 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • Microsoft Access Database — Die Microsoft Access Database ist das Standard Datenbank Format von Microsoft Access. Die Standard Datei Erweiterung ist „.mdb“ (seit Access 2007 auch „.accdb“). MDB ist die Abkürzung für Microsoft DataBase und ein Dateiformat, welches eine Datei …   Deutsch Wikipedia

  • RPG (Programmiersprache) — RPG ist eine problemorientierte Programmiersprache für den kaufmännischen Bereich. Inhaltsverzeichnis 1 Zweck und Ursprung 2 RPG II, RPG III, RPG/400 3 RPG IV 3.1 Beispiele …   Deutsch Wikipedia

  • SMS-Kodierung — Es gibt drei verschiedene Möglichkeiten, Texte und Daten in einer GSM Kurznachricht mit einer maximalen Nutzdatenmenge von 1.120 Bit zu kodieren: 7 Bit, 160 Zeichen Für SMS Textnachrichten bei denen ein begrenzter Zeichenvorrat zur Darstellung… …   Deutsch Wikipedia

  • Short Message Service — (engl. für „Kurznachrichtendienst“, Abk. SMS) ist ein Telekommunikationsdienst zur Übertragung von Textnachrichten. Er wurde zuerst für den GSM Mobilfunk entwickelt und ist nun in verschiedenen Ländern auch im Festnetz als Festnetz SMS verfügbar …   Deutsch Wikipedia

  • UCS-2 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • UCS-4 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • MySQL — Логотип MySQL Тип Реляционная СУБД Разработчик MySQL AB (до 2008), Sun Microsystems (2008 2010 …   Википедия

  • Паскаль (язык) — Pascal Семантика: процедурный Тип исполнения: компилятор Появился в: 1970 г. Автор(ы): Никлаус Вирт Паскаль (англ. Pascal) высокоуровневый язык программирования общего назначения. Один из наиболее известных языков программирования, широко… …   Википедия

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”