Extended Unix Code

Extended Unix Code

Extended UNIX Coding (Abkürzung EUC) ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu vier unterschiedliche Zeichensätze kodieren können. Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme, findet diese Kodierung heute immer weniger Verwendung, da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode (UTF-8) abgelöst wurde.

Inhaltsverzeichnis

Gemeinsamkeiten

Alle EUC Kodierungen haben einige Gemeinsamkeiten:

  • Sie unterstützen bis zu vier verschiedene Zeichensätze, in EUC-Terminologie Code Sets genannt. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1–3 sind je nach Unterart verschieden.
  • Code Set 0 wird immer durch ein Byte direkt kodiert.
  • Es gibt zwei Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x8e) und SS3 (0x8f).
  • Der Nicht-ASCII Bereich von 0xa0–0xff wird für Multi-Byte-Zeichen verwendet.

Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Folgende Kodierungen sind möglich:

Code Set Variante 1 Variante 2 Variante 3
Code Set 0 1 Byte: 0x21–0x7e
Code Set 1 1 Byte: 0xa0–0xff 2 Bytes: 0xa0–0xff, 0xa0–0xff 3 Bytes: 0xa0–0xff, 0xa0–0xff, 0xa0–0xff
Code Set 2 2 Bytes: 0x8e, 0xa0–0xff 3 Bytes: 0x8e, 0xa0–0xff, 0xa0–0xff 4 Bytes: 0x8e, 0xa0–0xff, 0xa0–0xff, 0xa0–0xff
Code Set 3 2 Bytes: 0x8f, 0xa0–0xff 3 Bytes: 0x8f, 0xa0–0xff, 0xa0–0xff 4 Bytes: 0x8f, 0xa0–0xff, 0xa0–0xff, 0xa0–0xff

EUC-JP

EUC-JP stellt die in Japan verwendete Variante dar.

Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch ein Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert.

Code Set 1 ist JIS X 0208:1997 und wird durch zwei Zeichen kodiert (Variante 2 in der obigen Tabelle)

Code Set 2 sind halbbreite Katakana die auch durch zwei Bytes kodiert werden (Variante 1 in der Tabelle). Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Präfix).

In Code Set 3 wird JIS X 0212:1990 in der drei Byte Variante kodiert.

EUC-KR

EUC-KR ist die in Korea verwendete Version von EUC. Sie ähnelt ISO-2022-KR (bzw. KS X 1001).

EUC-CN

EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen.

EUC-TW

Eigentlich entwickelt für Taiwan, wird EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. Beide kodieren die traditionellen chinesischen Schriftzeichen.


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Extended Unix Code — (EUC) is a multibyte character encoding system used primarily for Japanese, Korean, and simplified Chinese.The structure of EUC is based on the ISO 2022 standard, which specifies a way to represent character sets containing a maximum of 94… …   Wikipedia

  • Extended UNIX Code — Extended UNIX Coding (Abkürzung EUC) ist eine 8 Bit Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu vier… …   Deutsch Wikipedia

  • Extended UNIX Coding — (Abkürzung EUC) ist eine 8 Bit Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu vier unterschiedliche Zeichensätze… …   Deutsch Wikipedia

  • Extended Unix Coding — (EUC) est un codage de caractères sur 8 bits utilisé premièrement par le japonais et le coréen. Au Japon, ce codage est intensivement utilisé par les systèmes d exploitation de type Unix, mais est rarement utilisé ailleurs. EUC est cependant le… …   Wikipédia en Français

  • Unix time — Unix time, or POSIX time, is a system for describing points in time, defined as the number of seconds elapsed since midnight Coordinated Universal Time (UTC) of January 1 1970, not counting leap seconds. It is widely used not only on Unix like… …   Wikipedia

  • Extended file attributes — is a file system feature that enables users to associate computer files with metadata not interpreted by the filesystem, whereas regular attributes have a purpose strictly defined by the filesystem (such as permissions or records of creation and… …   Wikipedia

  • Extended display identification data — (EDID) is a data structure provided by a computer display to describe its capabilities to a graphics card. It is what enables a modern personal computer to know what kind of monitor is connected. EDID is defined by a standard published by the… …   Wikipedia

  • Su (UNIX) — su (сокр. от англ. Substitute User)  команда Unix подобных операционных систем, позволяющая пользователю войти в систему под другим именем, не завершая текущий сеанс. Обычно используется для временного входа Содержание 1 Синтаксис 2 Защита 3… …   Википедия

  • Unix File System — Infobox filesystem full name = UNIX file system name = UFS developer = CSRG introduction os = 4.2BSD introduction date = partition id = directory struct = table file struct = bad blocks struct = max file size = 2^73 bytes (8 ZiB) max files no =… …   Wikipedia

  • ASCII-Code — American Standard Code for Information Interchange (ASCII, alternativ US ASCII, oft [æski] ausgesprochen) ist eine 7 Bit Zeichenkodierung und bildet die US Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”