Chinesische Zeichenkodierung

Chinesische Zeichenkodierung

Chinesische Zeichenkodierungen (chinesisch 漢字編碼方法 / 汉字编码方法 Hànzì biānmǎ fāngfǎ) ordnen den chinesischen Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.

Es gibt wahrscheinlich keine anderen Sprachen und Schriften, für die es so viele Kodierungs- und Eingabemethoden gibt, wie für das Chinesische. Statistiken folgend, übersteigt die Anzahl der Kodierungskonzepte für die Eingabe chinesischer Schriftzeichen die Zahl Fünfhundert. Es gibt etwa 40 bis 50 verschiedene Kodes allein für entworfene Software, die formal im Computer getestet wurde. Kommerzialisierbar und allgemein gebräuchlich sind jedoch nicht mehr als zehn.

Dies hat ganz offensichtlich mit der hohen Anzahl an chinesischen Schriftzeichen und der komplizierten Form zu tun, gleichzeitig besteht eine direkte Verbindung mit den Tatsachen, dass es in China sehr viele Dialekte gibt, die Sprache und Schrift in den einzelnen Regionen nicht übereinstimmt und die allgemeine Hochsprache noch nicht ausreichend verbreitet ist.

Inhaltsverzeichnis

Kodierung und Eingabe

Die meisten Kodierungsmethoden für chinesische Schriftzeichen, die mit der Tastatur eingegeben werden, lassen sich grob in vier Kategorien einteilen:

  • „fließende Kodierung“ (流水碼 / 流水码 Liúshuǐmǎ),
  • Kodierung nach der Form des Schriftzeichens (字形碼 / 字形码 Zìxíngmǎ),
  • Kodierung nach dem Laut des Schriftzeichens (字音碼 / 字音码 Zìyīnmǎ),
  • Kodierung nach Laut und Form des Schriftzeichens (形音碼 / 形音码 Xíngyīnmǎ oder 音形碼 / 音形码 Yīnxíngmǎ).

Liushui-Kodierung

Auch 無理碼 / 无理码 wúlǐmǎ (unvernünftige Codierung) genannt.

Normalerweise werden arabische Ziffern oder lateinische Buchstaben verwendet, um die chinesischen Schriftzeichen zu kodieren, zum Beispiel war das Sima-dianbao, ein verschlüsselter Telegrammkode, das das Ministerium für Post- und Fernmeldewesen benutzte, eine typische Liushui-Kodierung. Im Prinzip kann man mit den Zahlen von 0001 bis 9999 fast zehntausend Schriftzeichen kodieren. Man kann die Kodierung dazu verwenden, Telegramme zu schreiben, aber das Ministerium für Post- und Fernmeldewesen benutzte es auch als Kodierungsmethode für die chinesischen Schriftzeichen.

Der Guojia biaozhun (zu Deutsch: nationaler Standard), (Version:„Informationsaustausch mit der Basissammlung von Zeichen zur Kodierung chinesischer Schriftzeichen (GB 2312-80)“, kodiert 6763 chinesische Schriftzeichen mit den Positionen 1601 bis 8794 aus der Reihenfolge des Liushui-Kodes. Das ist der unter dem Namen 區位碼 / 区位码 Qūwèimǎ (Zonenkode) bekannte Kode. Der Telegrammkode der beiden Zeichen 中国 (Zhōngguó, zu Deutsch: China) ist 0022 und 0948, und der Zonencode ist 5448 und 2590.

Kodierung nach der Form des Schriftzeichens

Die Kodierung nach der Gestalt der Zeichen kann in drei Sorten eingeteilt werden: Kodierung für die Gestalt der Striche, Kodierung für die Wurzel des Schriftzeichens, Kodierung für Merkmale des Schriftzeichens.

Kodierung für die Gestalt der Striche

Die Kodierung für die Gestalt der Striche benutzt die grundlegendsten Striche als Eingabe-Einheiten.

Li Jinkais Acht-Striche-Codierung ist eine typische Kodierung für die Gestalt der Striche. Er teilt die Striche der chinesischen Schriftzeichen in acht Sorten ein: „Heng, „Shu, „丿Pie, „Dian, Zhe, Wan, Cha, Fang, und kodiert sie mit den Ziffern von eins bis acht. Zum Beispiel ist die Codierung für die beiden Zeichen 中国 82 und 81714.

Die Strichcodierung im Wubizixing-Code ist die „Methode des zerteilten Zeichens“. Die StricheHeng, „Shu, „丿Pie, Na, Zhe, werden mit den Ziffern von ein bis fünf codiert.

Kodierung für die Wurzel des Schriftzeichens

Wird auch Radikal-Kodierung oder Struktur-Kodierung genannt, mit den Radikalen der chinesischen Schriftzeichen als Eingabe-Einheiten.

Wang Yongmins Wubizixing-Code ist typisch für eine Kodierung der Wurzel des Zeichens. Er fasste 130 grundlegende Wurzelzeichen zusammen, ordnete sie auf der Tastatur an, auf jeder Taste sechs Wurzelzeichen, eine Taste wird mehrmals verwendet. Die Taste „L“ steht z. B. für 车, 力, 甲, 田, 四, 口. Beim Eingeben drückt man die entsprechenden Tasten mit der Buchstabenkombination und schon kann man das benötigte Zeichen eingeben. Drückt man zum Beispiel „khk“ und „lgyi“, so werden auf dem Bildschirm die beiden Zeichen 中国 ausgegeben.

Kodierung für Merkmale des Schriftzeichens

Es wird gemäß der Gesetzmäßigkeiten der Konturmerkmale der chinesischen Schriftzeichen kodiert. Beispiele: 角碼 / 角码 Jiǎomǎ (Eckenkode). Es gibt die Drei-Ecken-Kodierung von Wang An und die Vier-Ecken-Nummer-Kodierung von Wang Yunwu u. a.

Kodierung nach dem Laut des Schriftzeichens

Die Kodierung nach dem Laut des Schriftzeichens heißt auch Pinyin-Eingabe-Kodierung und wird im Zusammenhang mit intelligenten Eingabesystemen für lateinische Buchstaben verwendet.

Die Schriftzeichen werden mit ihrer Lautung kodiert. Normalerweise kommen die wichtigen Faktoren Anlaut, Auslaut und Töne zum tragen. Die Kodierung nach dem Laut der Schriftzeichen kann weiter eingeteilt werden in die Arten

  • „komplette Buchstabierung“ (全拼 quán pīn),
  • „doppelte Buchstabierung“ (雙拼 / 双拼 shuāng pīn) und
  • „vermischte Buchstabierung“ (混拼 hùn pīn).

Ein Beispiel für die „komplette Buchstabierung“ von 中国 Zhōngguó wäre folgendes: Man gibt acht Buchstaben ein. Die doppelte Buchstabierung ist „vsgo“, man gibt einen Kode aus vier Buchstaben ein, davon steht „vs“ jeweils für die Anlaute „zh“ und „g“, „s“ und „o“ jeweils für die Auslaute „ong“ und „uo“. Die vermischte Buchstabierung ist „jiaty“, man gibt einen Code aus fünf Buchstaben ein.

Von den drei oben aufgeführten Sorten entspricht nur die „komplette Buchstabierung“ der normierten Schreibung für die Buchstabierung der chinesischen Schrift (Pinyin), die doppelte Buchstabierung und die vermischte Buchstabierung sind von den Designern des Codes entworfen worden. Die oben genannten Beispiele „doppelte Buchstabierung“ und „vermischte Buchstabierung“ sind jeweils ein natürlicher Code und ein spezieller Entwurf für das CCDOS-System.

Kodierung nach Laut und Form des Schriftzeichens

Diese Kodierungsart ist eine Verbindung aus der Kodierung nach der Form der Schriftzeichen und der Kodierung nach dem Laut der Schriftzeichen. Darunter kann man aufteilen in Laut-Form-Codierung, Form-Laut-Codierung, Laut-Bedeutung-Codierung und andere.

Gegenwärtige Verwendung

Oben wurden vier Möglichkeiten angeführt, chinesische Schriftzeichen zu kodieren bzw. einzugeben. Aus der Sicht der gegenwärtigen Anwendung favorisieren diejenigen, die Chinesisch sprechen können und das Pinyin für Chinesisch verstehen die Pinyin-Eingabemethode. Diejenigen, die Dialekt sprechen benutzen lieber eine Kodierung nach der Form der Schriftzeichen, das Wubizixing wird deswegen von den meisten professionellen Tippern beherrscht.

Kodierung im Internet

Wenn man seinen Browser beim Laden von chinesischsprachigen Websites richtig einstellen will, trifft man meist auf folgende Codes:

Big5

Die Zeichenkodierung Big5 stammt aus Taiwan und wird für traditionelles Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB2312

Die Zeichenkodierung GB2312 wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB18030

Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 auf den Unicodezeichenvorrat und wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.

Unicode

Unicode unterscheidet sich von den anderen chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen vereinfachtem und traditionellem Chinesisch gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen, japanischen und koreanischen soweit wie möglich identifiziert werden.

Unicode Transformation Formats

Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefolgen ist in den Unicode Transformation Formats definiert:

  • In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und chinesische Zeichen in drei oder vier Bytes.
  • In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und chinesische Zeichen in zwei oder vier Bytes.
  • In UTF-32 werden ausnahmslos alle Zeichen in vier Bytes kodiert.

SIP

Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der Supplementary Ideographic Plane alloziert, d. h. im Bereich U+20000-U+2FFFF.

Sonstige Unicode-Bereiche

Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen, die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind entweder einzeln kodiert oder über den Bereich für kombinierende diakritische Zeichen darstellbar.

Siehe auch

  • CJK Chinesisch-Japanisch-Koreanisch

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Chinesische Schrift — Schrifttyp Logografie Sprachen Chinesisch Entstehung 1000 v. Chr. Verwendungszeit bis heute Verwendet in China …   Deutsch Wikipedia

  • Zeichenkodierung — Eine Zeichenkodierung (englisch Character encoding, kurz Encoding) erlaubt die eindeutige Zuordnung von Schriftzeichen (Buchstaben oder Ziffern) und Symbolen innerhalb eines Zeichensatzes. In der Elektronischen Datenverarbeitung werden Zeichen… …   Deutsch Wikipedia

  • Eingabesysteme für die chinesische Schrift — Man kann, um chinesische Schrift digital zu erzeugen, die Tastatur als Eingabemedium verwenden. Es existieren diesbezüglich verschiedene Eingabemethoden für die chinesischen Schriftzeichen (chinesisch 漢字輸入法 / 汉字输入法 Hànzì… …   Deutsch Wikipedia

  • Radikal (chinesische Schrift) — Radikale von 1 bis 126 (die roten Zahlen geben die Anzahl der Striche an) …   Deutsch Wikipedia

  • HZ (Zeichenkodierung) — HZ ist eine Zeichenkodierung der chinesischen Schrift und ist in RFC 1843 beschrieben. Sie entspricht vom Zeichenumfang her GB2312, benutzt aber zum Kodieren nur die druckbaren 7 Bit Zeichen des ASCII Zeichensatzes und ist für Mails und das… …   Deutsch Wikipedia

  • Chinesisches Schriftsystem — Die Artikel Chinesische Schriftzeichen und Chinesische Schrift überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte… …   Deutsch Wikipedia

  • Sinographem — Die Artikel Chinesische Schriftzeichen und Chinesische Schrift überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte… …   Deutsch Wikipedia

  • ANSI X3.4-1968 — American Standard Code for Information Interchange (ASCII, alternativ US ASCII, oft [æski] ausgesprochen) ist eine 7 Bit Zeichenkodierung und bildet die US Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und… …   Deutsch Wikipedia

  • ASCII — American Standard Code for Information Interchange (ASCII, alternativ US ASCII, oft [æski] ausgesprochen) ist eine 7 Bit Zeichenkodierung und bildet die US Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und… …   Deutsch Wikipedia

  • ASCII-Code — American Standard Code for Information Interchange (ASCII, alternativ US ASCII, oft [æski] ausgesprochen) ist eine 7 Bit Zeichenkodierung und bildet die US Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”