- Chinesische Zeichenkodierung
-
Chinesische Zeichenkodierungen (chinesisch 漢字編碼方法 / 汉字编码方法 Hànzì biānmǎ fāngfǎ) ordnen den chinesischen Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.
Es gibt wahrscheinlich keine anderen Sprachen und Schriften, für die es so viele Kodierungs- und Eingabemethoden gibt, wie für das Chinesische. Statistiken folgend, übersteigt die Anzahl der Kodierungskonzepte für die Eingabe chinesischer Schriftzeichen die Zahl Fünfhundert. Es gibt etwa 40 bis 50 verschiedene Kodes allein für entworfene Software, die formal im Computer getestet wurde. Kommerzialisierbar und allgemein gebräuchlich sind jedoch nicht mehr als zehn.
Dies hat ganz offensichtlich mit der hohen Anzahl an chinesischen Schriftzeichen und der komplizierten Form zu tun, gleichzeitig besteht eine direkte Verbindung mit den Tatsachen, dass es in China sehr viele Dialekte gibt, die Sprache und Schrift in den einzelnen Regionen nicht übereinstimmt und die allgemeine Hochsprache noch nicht ausreichend verbreitet ist.
Inhaltsverzeichnis
Kodierung und Eingabe
Die meisten Kodierungsmethoden für chinesische Schriftzeichen, die mit der Tastatur eingegeben werden, lassen sich grob in vier Kategorien einteilen:
- „fließende Kodierung“ (流水碼 / 流水码 Liúshuǐmǎ),
- Kodierung nach der Form des Schriftzeichens (字形碼 / 字形码 Zìxíngmǎ),
- Kodierung nach dem Laut des Schriftzeichens (字音碼 / 字音码 Zìyīnmǎ),
- Kodierung nach Laut und Form des Schriftzeichens (形音碼 / 形音码 Xíngyīnmǎ oder 音形碼 / 音形码 Yīnxíngmǎ).
Liushui-Kodierung
Auch 無理碼 / 无理码 wúlǐmǎ (unvernünftige Codierung) genannt.
Normalerweise werden arabische Ziffern oder lateinische Buchstaben verwendet, um die chinesischen Schriftzeichen zu kodieren, zum Beispiel war das Sima-dianbao, ein verschlüsselter Telegrammkode, das das Ministerium für Post- und Fernmeldewesen benutzte, eine typische Liushui-Kodierung. Im Prinzip kann man mit den Zahlen von 0001 bis 9999 fast zehntausend Schriftzeichen kodieren. Man kann die Kodierung dazu verwenden, Telegramme zu schreiben, aber das Ministerium für Post- und Fernmeldewesen benutzte es auch als Kodierungsmethode für die chinesischen Schriftzeichen.
Der Guojia biaozhun (zu Deutsch: nationaler Standard), (Version:„Informationsaustausch mit der Basissammlung von Zeichen zur Kodierung chinesischer Schriftzeichen (GB 2312-80)“, kodiert 6763 chinesische Schriftzeichen mit den Positionen 1601 bis 8794 aus der Reihenfolge des Liushui-Kodes. Das ist der unter dem Namen 區位碼 / 区位码 Qūwèimǎ (Zonenkode) bekannte Kode. Der Telegrammkode der beiden Zeichen 中国 (Zhōngguó, zu Deutsch: China) ist 0022 und 0948, und der Zonencode ist 5448 und 2590.
Kodierung nach der Form des Schriftzeichens
Die Kodierung nach der Gestalt der Zeichen kann in drei Sorten eingeteilt werden: Kodierung für die Gestalt der Striche, Kodierung für die Wurzel des Schriftzeichens, Kodierung für Merkmale des Schriftzeichens.
Kodierung für die Gestalt der Striche
Die Kodierung für die Gestalt der Striche benutzt die grundlegendsten Striche als Eingabe-Einheiten.
Li Jinkais Acht-Striche-Codierung ist eine typische Kodierung für die Gestalt der Striche. Er teilt die Striche der chinesischen Schriftzeichen in acht Sorten ein: „一“ Heng, „丨“ Shu, „丿“ Pie, „丶“ Dian, Zhe, Wan, Cha, Fang, und kodiert sie mit den Ziffern von eins bis acht. Zum Beispiel ist die Codierung für die beiden Zeichen 中国 82 und 81714.
Die Strichcodierung im Wubizixing-Code ist die „Methode des zerteilten Zeichens“. Die Striche „一“ Heng, „丨“ Shu, „丿“ Pie, Na, Zhe, werden mit den Ziffern von ein bis fünf codiert.
Kodierung für die Wurzel des Schriftzeichens
Wird auch Radikal-Kodierung oder Struktur-Kodierung genannt, mit den Radikalen der chinesischen Schriftzeichen als Eingabe-Einheiten.
Wang Yongmins Wubizixing-Code ist typisch für eine Kodierung der Wurzel des Zeichens. Er fasste 130 grundlegende Wurzelzeichen zusammen, ordnete sie auf der Tastatur an, auf jeder Taste sechs Wurzelzeichen, eine Taste wird mehrmals verwendet. Die Taste „L“ steht z. B. für 车, 力, 甲, 田, 四, 口. Beim Eingeben drückt man die entsprechenden Tasten mit der Buchstabenkombination und schon kann man das benötigte Zeichen eingeben. Drückt man zum Beispiel „khk“ und „lgyi“, so werden auf dem Bildschirm die beiden Zeichen 中国 ausgegeben.
Kodierung für Merkmale des Schriftzeichens
Es wird gemäß der Gesetzmäßigkeiten der Konturmerkmale der chinesischen Schriftzeichen kodiert. Beispiele: 角碼 / 角码 Jiǎomǎ (Eckenkode). Es gibt die Drei-Ecken-Kodierung von Wang An und die Vier-Ecken-Nummer-Kodierung von Wang Yunwu u. a.
Kodierung nach dem Laut des Schriftzeichens
Die Kodierung nach dem Laut des Schriftzeichens heißt auch Pinyin-Eingabe-Kodierung und wird im Zusammenhang mit intelligenten Eingabesystemen für lateinische Buchstaben verwendet.
Die Schriftzeichen werden mit ihrer Lautung kodiert. Normalerweise kommen die wichtigen Faktoren Anlaut, Auslaut und Töne zum tragen. Die Kodierung nach dem Laut der Schriftzeichen kann weiter eingeteilt werden in die Arten
- „komplette Buchstabierung“ (全拼 quán pīn),
- „doppelte Buchstabierung“ (雙拼 / 双拼 shuāng pīn) und
- „vermischte Buchstabierung“ (混拼 hùn pīn).
Ein Beispiel für die „komplette Buchstabierung“ von 中国 Zhōngguó wäre folgendes: Man gibt acht Buchstaben ein. Die doppelte Buchstabierung ist „vsgo“, man gibt einen Kode aus vier Buchstaben ein, davon steht „vs“ jeweils für die Anlaute „zh“ und „g“, „s“ und „o“ jeweils für die Auslaute „ong“ und „uo“. Die vermischte Buchstabierung ist „jiaty“, man gibt einen Code aus fünf Buchstaben ein.
Von den drei oben aufgeführten Sorten entspricht nur die „komplette Buchstabierung“ der normierten Schreibung für die Buchstabierung der chinesischen Schrift (Pinyin), die doppelte Buchstabierung und die vermischte Buchstabierung sind von den Designern des Codes entworfen worden. Die oben genannten Beispiele „doppelte Buchstabierung“ und „vermischte Buchstabierung“ sind jeweils ein natürlicher Code und ein spezieller Entwurf für das CCDOS-System.
Kodierung nach Laut und Form des Schriftzeichens
Diese Kodierungsart ist eine Verbindung aus der Kodierung nach der Form der Schriftzeichen und der Kodierung nach dem Laut der Schriftzeichen. Darunter kann man aufteilen in Laut-Form-Codierung, Form-Laut-Codierung, Laut-Bedeutung-Codierung und andere.
Gegenwärtige Verwendung
Oben wurden vier Möglichkeiten angeführt, chinesische Schriftzeichen zu kodieren bzw. einzugeben. Aus der Sicht der gegenwärtigen Anwendung favorisieren diejenigen, die Chinesisch sprechen können und das Pinyin für Chinesisch verstehen die Pinyin-Eingabemethode. Diejenigen, die Dialekt sprechen benutzen lieber eine Kodierung nach der Form der Schriftzeichen, das Wubizixing wird deswegen von den meisten professionellen Tippern beherrscht.
Kodierung im Internet
Wenn man seinen Browser beim Laden von chinesischsprachigen Websites richtig einstellen will, trifft man meist auf folgende Codes:
Big5
Die Zeichenkodierung Big5 stammt aus Taiwan und wird für traditionelles Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
GB2312
Die Zeichenkodierung GB2312 wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.
GB18030
Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 auf den Unicodezeichenvorrat und wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.
Unicode
Unicode unterscheidet sich von den anderen chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen vereinfachtem und traditionellem Chinesisch gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen, japanischen und koreanischen soweit wie möglich identifiziert werden.
Unicode Transformation Formats
Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefolgen ist in den Unicode Transformation Formats definiert:
- In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und chinesische Zeichen in drei oder vier Bytes.
- In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und chinesische Zeichen in zwei oder vier Bytes.
- In UTF-32 werden ausnahmslos alle Zeichen in vier Bytes kodiert.
SIP
Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der Supplementary Ideographic Plane alloziert, d. h. im Bereich U+20000-U+2FFFF.
Sonstige Unicode-Bereiche
Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen, die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind entweder einzeln kodiert oder über den Bereich für kombinierende diakritische Zeichen darstellbar.
Siehe auch
- CJK Chinesisch-Japanisch-Koreanisch
Weblinks
- GB18030 Zusammenfassung PDF (englisch)
- Eingabesysteme (unter UNIX, Linux, BSD usw.): OXIM, SCIM/SKIM, XCIN
- Anleitung zu Scim
Kategorie:- Zeichenkodierung für die chinesische Schrift
Wikimedia Foundation.