ISO 10646

ISO 10646
Unicode-Logo Unicode
Kodierungen
Techniken

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung aller lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT, Office 2000 und Microsoft SQL 2000 oder höher, implementiert als UCS-2-LE (Unicode Characterset 2 Bytes Little Endian). In dem Codebereich unter 64K wurde aber ein Privatbereich eingerichtet (Private Use Zone). Aus diesem Privatbereich hat man nun 2-mal 1024 Byte abgezweigt als sogenannte Surrogate: High-half zone und Low-half zone of UTF-16 (siehe Weblinks zu BMP). Nimmt man nun 2 Byte aus der niederen Zone und kombiniert sie mit 2 Byte aus der höheren Zone, so kann man den vollen Zeichencode-Bereich von UTF-16 und UTF-8 abdecken und erreicht damit den als Maximum vereinbarten CodePoint-Bereich von 0 bis 1114111. Microsoft Windows ab Version 2000 unterstützt die Verwendung von Surrogaten (GDI). Damit ist UCS2 zwar nicht dasselbe wie UTF-16, aber es ist "UTF-16 Preserving", d. h., da die CodePoints der Surrogate im Privatbereich liegen, wird der Text 1:1 verarbeitet und erst durch das Graphiksystem (GDI = Graphic Device Interface) zu den richtigen Zeichen umgewandelt.
  • UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.

Gegenüberstellung der Versionen

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0
  • ISO/IEC 10646-4:2008 ≈ Unicode 5.1

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • ISO 10646 — ISO/CEI 10646 Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • ISO 10646 — Este artículo o sección se encuentra desactualizado. Es posible que la información suministrada aquí haya cambiado o sea insuficiente. El te …   Wikipedia Español

  • ISO 10646 —    A 4 byte character encoding scheme that includes all the world s national standard character encodings, defined by the International Organization for Standardization (ISO). The 2 byte Unicode characters set maps into a part of ISO 10646.… …   Dictionary of networking

  • ISO 10646 — …   Википедия

  • ISO 10646 — ● np. f. ►NORM►CHAR Connue sous le nom d Unicode, cette norme définit depuis 1993 l UCS, contenant tous les caractères de tous les autres jeux de caractères existants. Elle garantit aussi que des tables de conversion peuvent être écrites pour… …   Dictionnaire d'informatique francophone

  • Iso/cei 10646 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • ISO 8859-1 — es una norma de la ISO que define la codificación del alfabeto latino, incluyendo los diacríticos (como letras acentuadas, ñ, ç), y letras especiales (como ß, Ø), necesarios para la escritura de las siguientes lenguas originarias de Europa… …   Wikipedia Español

  • ISO/CEI 10646 — La norme ISO/CEI 10646, intitulée Technologies de l information Jeu universel de caractères codés (JUC), tente de définir un système de codage universel pour tous les systèmes d’écriture. Cette norme est le fondement d’Unicode. Sommaire 1… …   Wikipédia en Français

  • ISO/IEC 646 — This article is about a character encoding standard. For the ISO C header file, see iso646.h. ISO/IEC 646:1991, Information technology ISO 7 bit coded character set for information interchange, is an ISO standard that since its first edition in… …   Wikipedia

  • ISO basic Latin alphabet — The International Organization for Standardization (ISO) basic Latin alphabet consists of the following 26 letters:[1][2] Majuscule forms (also called uppercase or capital letters) A B C D E …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”