GB18030

GB18030
Unicode-Logo Unicode
Kodierungen
Techniken

Der chinesische Zeichenkodierungsstandard GB18030 beschreibt 27.484 Zeichen der chinesischen Schrift. Seit dem 1. September 2001 ist er verbindlich für alle in der Volksrepublik verkauften Betriebssysteme und Programme; es ist der Nachfolgestandard für die Kodierungen GBK und GB2312 und deckt traditionelle und vereinfachte Zeichen ab. Der offizielle Name ist GB18030-2000 und enthält GB für Guojia Biaozhun (國家標準 / 国家标准), was nationaler Standard bedeutet. Veröffentlicht wurde der Standard am 17. März 2000, ein Update erschien am 21. November 2000.

GB18030 kann als das chinesische Äquivalent zu UTF-8 angesehen werden, weil es die Codepunkte für den gesamten Unicodebereich enthält, auch für heute noch nicht zugewiesene Codepoints. Ähnlich wie UTF-8 ist es eine zu ASCII abwärtskompatible Kodierung, die über eine Million Codepunkte zusätzlich repräsentiert (im 4-Byte-Bereich von Unicode). Im Unterschied zu UTF-8 jedoch erhält GB18030 die Kompatibilität mit GBK und GB2312; ein Teil der Zuordnungstabelle wurde direkt von GBK übernommen, der Rest algorithmisch ermittelt. Zusätzlich schließt GB18030 auch die Zeichen aus dem taiwanischen Big5 ein.

Die meisten (westlichen) Computersysteme hatten bereits eine Variante von Unicode standardisiert, als GB18030 erschien. Die dabei vorgenommene technische Vereinfachung, Unicode als fixe Einheiten mit 16-bit Länge UCS-2 zu behandeln, konnte nach seinem Erscheinen nicht mehr fortgeführt werden. Betriebssystemhersteller und Programmierer wurden sozusagen durch eine „volksrepublikanische Verfügung“ gezwungen, entweder variable Formate wie UTF-8 oder UTF-16 zu verwenden, oder aber größere Formate fixer Breite, wie UCS-4 oder UTF-32. Mit Windows 2000 nahm Microsoft diesen Schritt vor, Linux unterstützt dies ebenfalls seit einigen Jahren.

Der Zeichensatz SimSun (Founder Extended) ermöglicht die Anzeige aller Glyphen aus GB18030, also des gesamten Zeichenvorrates aus Unicode 2.1 und die zusätzlichen aus den „Unicode CJK Unified Ideographs Extensions A und B“. Weitere bekannte Zeichensätze mit zumindest teilweiser Unterstützung (CJK Extension A) sind SimSun 18030 oder Code2000.

Aufbau der Zeichen

Sequenzen aus einem Byte entsprechen ASCII und reichen von 00hex bis 7Fhex. Sequenzen aus 2 Byte entsprechen GB2312 und bestehen aus einem Start-Byte aus dem Bereich 81hex … FEhex, gefolgt von einem Byte aus dem Bereich 40hex … FEhex. Sequenzen aus 4 Byte bilden die bis hierhin unberücksichtigten Unicode-Zeichen ab. Das erste und dritte Byte ist aus dem Bereich 81hex … FEhex, das zweite und vierte Byte aus 30hex … 39hex. Im Gegensatz zu UTF-8 kann man also bei einem Oktett im Bereich 30hex … 7Fhex nicht davon ausgehen, dass es für ein ASCII-Zeichen ist, sondern dieser Bytewert kann in Abhängigkeit von seiner Position verschiedene Bedeutung haben.

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • GB18030 — GB 18030 Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • GB 18030 — GB18030 is the registered Internet name for the official character set of the People s Republic of China (PRC) superseding GB2312. This character set is formally called Chinese National Standard GB 18030 2005: Information technology Chinese coded …   Wikipedia

  • GB 18030 — GB18030 est le nom Internet enregistré pour le jeu de caractères officiel de la République populaire de Chine (RPC). Sommaire 1 Historique 2 Description 3 Détails techniques 4 …   Wikipédia en Français

  • GB 18030 — GB18030 es el nombre registrado en internet para el conjunto de caracteres oficiales de la República Popular China. Este conjunto de caracteres se denomina oficialmente Estándar nacional chino GB 18030 2000: Tecnología de la Información conjunto… …   Wikipedia Español

  • GB 18030 — GB18030 es el nombre registrado en Internet para el conjunto de caracteres oficiales de la República Popular China. Este conjunto de caracteres se denomina oficialmente Estándar nacional chino GB 18030 2000: Tecnología de la Información conjunto… …   Enciclopedia Universal

  • Gb 18030 — Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 …   Wikipédia en Français

  • 18030 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • Simsun — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM …   Deutsch Wikipedia

  • GB 18030 — Der chinesische Zeichenkodierungsstandard GB18030 beschreibt 27.484 Zeichen der chinesischen Schrift. Seit dem 1. September 2001 ist er verbindlich für alle in der Volksrepublik verkauften Betriebssysteme und Programme; es ist der… …   Deutsch Wikipedia

  • Extended Unix Code — (EUC) is a multibyte character encoding system used primarily for Japanese, Korean, and simplified Chinese.The structure of EUC is based on the ISO 2022 standard, which specifies a way to represent character sets containing a maximum of 94… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”