ISO/IEC 10646

Unicode
Kodierungen UTF-7 UTF-8 CESU-8 UTF-16 UTF-32 UTF-EBCDIC SCSU Punycode GB 18030
Techniken BOM UCS UTF

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung aller lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT, Office 2000 und Microsoft SQL 2000 oder höher, implementiert als UCS-2-LE (Unicode Characterset 2 Bytes Little Endian). In dem Codebereich unter 64K wurde aber ein Privatbereich eingerichtet (Private Use Zone). Aus diesem Privatbereich hat man nun 2-mal 1024 Byte abgezweigt als sogenannte Surrogate: High-half zone und Low-half zone of UTF-16 (siehe Weblinks zu BMP). Nimmt man nun 2 Byte aus der niederen Zone und kombiniert sie mit 2 Byte aus der höheren Zone, so kann man den vollen Zeichencode-Bereich von UTF-16 und UTF-8 abdecken und erreicht damit den als Maximum vereinbarten CodePoint-Bereich von 0 bis 1114111. Microsoft Windows ab Version 2000 unterstützt die Verwendung von Surrogaten (GDI). Damit ist UCS2 zwar nicht dasselbe wie UTF-16, aber es ist "UTF-16 Preserving", d. h., da die CodePoints der Surrogate im Privatbereich liegen, wird der Text 1:1 verarbeitet und erst durch das Graphiksystem (GDI = Graphic Device Interface) zu den richtigen Zeichen umgewandelt.

UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 2²⁰+2¹⁶) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.

Gegenüberstellung der Versionen

ISO/IEC 10646-1:1993 ≈ Unicode 1.1
ISO/IEC 10646-1:2000 ≈ Unicode 3.0
ISO/IEC 10646-2:2001 ≈ Unicode 3.2
ISO/IEC 10646-3:2003 ≈ Unicode 4.0
ISO/IEC 10646-4:2008 ≈ Unicode 5.1

Weblinks

BMP (Basic Multilingual Plane) Kodierung der 65536 Zeichen
Unicode Relationship to ISO/IEC 10646 (englisch)
Unicode FAQ: What is the difference between UCS-2 and UTF-16? (englisch)
Traduction française officielle de l’ISO/CEI 10646 et Unicode

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

ISO/IEC 10646:2003 — изд.1 XU JTC 1/SC 2 Информационные технологии. Универсальный многооктетный комплект закодированных знаков (UCS) Изменения и дополнения: – ISO/IEC 10646:2003/Amd.1:2005 (изд.1 H JTC 1/SC 2) – ISO/IEC 10646:2003/Amd.2:2006 (изд.1 X JTC 1/SC 2)… … Стандарты Международной организации по стандартизации (ИСО)
ISO/IEC 10646 — … Википедия
ISO/IEC 8859 — is a joint ISO and IEC standard for 8 bit character encodings for use by computers. The standard is divided into numbered, separately published parts, such as ISO/IEC 8859 1, ISO/IEC 8859 2, etc., each of which may be informally referred to as a… … Wikipedia
ISO/IEC 8859-11 — ISO/IEC 8859 11:2001, Information technology 8 bit single byte coded graphic character sets Part 11: Latin/Thai alphabet, is part of the ISO/IEC 8859 series of ASCII based standard character encodings, first edition published in 2001. It is… … Wikipedia
ISO/IEC 8859-1 — ISO 8859 1, more formally cited as ISO/IEC 8859 1 is part 1 of ISO/IEC 8859, a standard character encoding of the Latin alphabet. It is less formally referred to as Latin 1. It was originally developed by the ISO, but later jointly maintained by… … Wikipedia
ISO/IEC 8859-6 — ISO/IEC 8859 6:1999, Information technology 8 bit single byte coded graphic character sets Part 6: Latin/Arabic alphabet, is part of the ISO/IEC 8859 series of ASCII based standard character encodings, first edition published in 1987. It is… … Wikipedia
Iso/cei 10646 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 … Wikipédia en Français
ISO/IEC 646 — This article is about a character encoding standard. For the ISO C header file, see iso646.h. ISO/IEC 646:1991, Information technology ISO 7 bit coded character set for information interchange, is an ISO standard that since its first edition in… … Wikipedia
ISO/IEC 14755:1997 — изд.1 D JTC 1/SC 35 Информационные технологии. Методы ввода знаков из набора, представленного в стандарте ISO/IEC 10646 с помощью клавиатуры или других устройств ввода раздел 35.180 … Стандарты Международной организации по стандартизации (ИСО)
ISO/IEC ISP 11186-2:1996 — изд.1 C JTC 1 Информационные технологии. Международные стандартизованные профили FVT3nn. Основной класс виртуального терминала. Регистр определений типа присвоения атрибутов. Часть 2. FVT311 тип присвоения набора для ISO/IEC 10646 раздел… … Стандарты Международной организации по стандартизации (ИСО)

Academic dictionaries and encyclopedias

ISO/IEC 10646

Gegenüberstellung der Versionen

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

ISO/IEC 10646

Gegenüberstellung der Versionen

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link