- Han Unification
-
Mit dem Begriff Han-Vereinheitlichung (engl. Han unification) wird in der Informatik die Vereinheitlichung der chinesischen Hanzi, japanischen Kanji und koreanischen Hanja (CJK), seltener auch vietnamesische Chữ nôm in einen Zeichensatz bezeichnet. Der Begriff wird meistens im Zusammenhang mit Unicode und der dort stattgefundenen Han-Vereinheitlichung verwendet.
Die Idee, die verschiedenen Han-Schriften in einen Zeichensatz zu vereinigen, ist nicht neu – schon 1980 existierte mit dem CCCII ein Zeichensatz, der Kurzzeichen, Langzeichen und Kanji vereinigte. Diese Idee wurde auch bei der Entwicklung des Unicode-Standards verfolgt. Im Februar 1990 wurde eine eigens auf die Han-Vereinheitlichung spezialisierte Gruppe, das CJK-IRG gegründet. Diese Gruppe wurde wenig später in IRG umbenannt.
Als China die Entwicklung eines neuen Zeichensatzes, GB 13000 bekanntgab, einigten sich Unicode und China darauf, den Han-Zeichensatz gemeinsam zu entwickeln.
Han-Vereinheitlichung in Unicode
Für die Han-Vereinheitlichung in Unicode ist die Ideographic Rapporteur Group (IRG) zuständig, die alle Kodierungsvorschläge überprüft und Zeichen, die vereinigt werden können, ausfindig macht. Die Vereinheitlichung in Unicode erfolgt nach strengen Regeln:
- Um die Umstellung von älteren Zeichensätzen auf Unicode einfacher zu machen, wurde für die 20.902 Zeichen der ersten Unicode-Version die source separation rule benutzt, die besagt, dass zwei Ideogramme, die in einem älteren Zeichensatz unterschieden werden, auch in Unicode unterschieden werden. Für später kodierte CJK-Ideogramme wird diese Regel nicht mehr benutzt.
- Wenn Ideogramme von der historischen Bedeutung nicht verwandt sind, werden sie ebenfalls nicht vereinigt. Dies trifft z. B. auf die Zeichen 土 (Erde) und 士 (Krieger) zu, welche zwar ähnlich aussehen, aber eine völlig verschiedene Bedeutung und Ursprung haben.
Anschließend werden die Ideogramme in ihre einzelnen Striche zerlegt. Danach werden die Anzahl und die Position der Striche, die Struktur, die Kodierung in einem älteren Zeichensatz sowie das Radikal der Zeichen bestimmt. Wenn alles übereinstimmt, werden die Zeichen vereinigt, sonst nicht.
Meistens werden Zeichen vereinfacht, wenn sie nur bei den verschiedenen Schreibstilen der chinesischen Schrift anders aussehen. So wird beispielsweise das Radikal 辵 (als Radikal 辶) in der Druckschrift entweder mit einem oder mit zwei oberen Punkten. geschrieben. In der Regelschrift und der Handschrift besitzt dieses Zeichen allerdings überall nur einen Punkt. Ähnlich ist es auch bei dem 示-Radikal, das zwar in der klassischen Druckschrift (Ming) noch wie ein 示 geschrieben wird, in der Hand- und Regelschrift allerdings 礻 geschrieben wird. Da nach den Schriftreformen in der Volksrepublik China und Japan versucht wurde, die Druckschrift an die Handschrift anzupassen, in Korea allerdings gar nicht und in Taiwan begrenzt, treten diese Unterschiede auf.
Kritik
- In Ostasien wird die Han-Vereinheitlichung hauptsächlich aus kulturellen, allerdings auch aus technischen Gründen kritisiert. Vor allem in Japan hat Unicode daher immer noch einen schweren Stand.
- Ein weiteres Problem ist die fehlende Möglichkeit, in einem Text ohne Markup verschiedene Varianten eines Zeichens anzugeben. Besonders im Japanischen, wo einige Ortsbezeichnungen und Namen immer noch die alten Radikale benutzen, führt das zu Problemen. So wird beispielsweise das erste Zeichen des Ortsteils Gion 祇園 von Kyōto nicht mit ネ geschrieben, sondern mit 示, obwohl andere Wörter mit 祇 mit dem ネ-Radikal geschrieben werden.
Weblinks
Wikimedia Foundation.