ASCII

American Standard Code for Information Interchange (ASCII, alternativ US-ASCII, oft [æski] ausgesprochen) ist eine 7-Bit-Zeichenkodierung und bildet die US-Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und -kodierungen.

ASCII, auch als ANSI X3.4-1986 bezeichnet, wurde im Jahr 1967 erstmals als Standard veröffentlicht und im Jahr 1986 zuletzt aktualisiert. Die Zeichenkodierung definiert 128 Zeichen, bestehend aus 33 nicht-druckbaren sowie 95 druckbaren. Letztere sind, beginnend mit dem Leerzeichen:

␣!"#$%&'()*+,-./0123456789:;<=>?

@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_

`abcdefghijklmnopqrstuvwxyz{|}~

Die Zeichen umfassen das lateinische Alphabet in Groß- und Kleinschreibung, die zehn arabischen Ziffern sowie einige Satz- und Steuerzeichen. Der Zeichenvorrat entspricht weitgehend dem einer Tastatur oder Schreibmaschine für die englische Sprache. In Computern und anderen elektronischen Geräten, die Text darstellen, wird dieser in der Regel gemäß ASCII oder abwärtskompatibel (z. B. ISO 8859, UTF-8) dazu gespeichert.

Inhaltsverzeichnis

1 Kodierung
2 Geschichte
3 Zusammensetzung
4 Erweiterungen
5 Kompatible Zeichenkodierungen
- 5.1 Kodierungen mit fester Länge (Auswahl)
- 5.2 Kodierungen mit variabler Länge
6 ASCII-Tabelle
7 Siehe auch
8 Weblinks
9 Quellenangaben

Kodierung

Jedem Zeichen wird ein Bitmuster aus 7 Bit zugeordnet. Da jedes Bit zwei Werte annehmen kann, gibt es $27 = 128$ verschiedene Bitmuster, die auch als die ganzen Zahlen 0–127 (hexadezimal 00–7F) interpretiert werden können.

In anderen als der englischen Sprache verwendete Sonderzeichen – wie beispielsweise die deutschen Umlaute – können mit dem 7-Bitcode nicht vollständig dargestellt werden; dafür würden 8 bis 16 Bit benötigt. Die Datenverarbeitung benutzt in der Regel 8 Bit oder ein Byte als kleinste Einheit zur Datenspeicherung. Das höchstwertige Bit in jedem Byte ist bei Verwendung von ASCII auf den Wert 0 gesetzt.

Die Buchstaben A, B und C als Sieben-Bit-Code
Schriftzeichen	Dezimal	Hexadezimal	Binär
A	65	41	(0)1000001
B	66	42	(0)1000010
C	67	43	(0)1000011
…	…	…	…

Es kann auch für Fehlerkorrekturzwecke (Paritätsbit) auf den Kommunikationsleitungen oder für andere Steuerungsaufgaben verwendet werden. Heute wird es aber fast immer zur Erweiterung von ASCII auf einen 8-Bit-Code verwendet. Diese Erweiterungen sind mit dem ursprünglichen ASCII weitgehend kompatibel, so dass alle im ASCII definierten Zeichen auch in den verschiedenen Erweiterungen durch die gleichen Bitmuster kodiert werden. Die Erweiterungen unterscheiden sich je nach Hard- und Software und sind länderspezifisch.

Geschichte

Eine Form der Zeichenkodierung war der Morsecode. Er wurde mit der Einführung von Fernschreibern aus den Telegrafennetzen verdrängt und durch den Baudot-Code und Murray-Code ersetzt. Vom Fünf-Bit-Murray-Code zum Sieben-Bit-ASCII war es dann nur noch ein kleiner Schritt – auch ASCII wurde zuerst für bestimmte amerikanische Fernschreiber-Modelle, wie den Teletype ASR33, eingesetzt. In den Anfängen des Computerzeitalters entwickelte sich ASCII zum Standard-Code für Schriftzeichen. Als Beispiel wurden viele Bildschirme (z. B. VT100) und Drucker nur mit ASCII angesteuert.

ASCII diente ursprünglich der Darstellung von Schriftzeichen der englischen Sprache. Die erste Version, noch ohne Kleinbuchstaben und mit kleinen Abweichungen vom heutigen ASCII, entstand im Jahr 1963. 1968 wurde dann der bis heute gültige ASCII festgelegt. Um später auch Sonderzeichen anderer Sprachen darstellen zu können (z. B. deutsche Umlaute), nahmen neue Kodierungen mit acht Bit pro Zeichen ASCII als kompatible Grundlage. Allerdings boten auch Acht-Bit-Codes, in denen ein Byte für ein Zeichen stand, zu wenig Platz, um alle Zeichen der menschlichen Schriftkultur gleichzeitig unterzubringen. Dadurch wurden mehrere verschiedene spezialisierte Erweiterungen notwendig. Daneben existieren vor allem für den ostasiatischen Raum einige ASCII-kompatible Kodierungen, die entweder zwischen verschiedenen Codetabellen umschalten oder mehr als ein Byte für jedes Nicht-ASCII-Zeichen benötigen.^[1] Keine dieser Acht-Bit-Erweiterungen ist aber „ASCII“, denn das bezeichnet nur den einheitlichen Sieben-Bit-Code.

Für die Kodierung lateinischer Zeichen wird fast nur noch im Großrechnerbereich eine zu ASCII inkompatible Kodierung verwendet (EBCDIC).

Zusammensetzung

ASCII-Codetabelle, hexadezimale Nummerierung
Code	…0	…1	…2	…3	…4	…5	…6	…7	…8	…9	…A	…B	…C	…D	…E	…F
0…	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
1…	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
2…	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3…	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4…	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5…	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6…	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7…	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL

Die ersten 32 ASCII-Zeichencodes (von 00 bis 1F) sind für Steuerzeichen (control character) reserviert; siehe dort für die Erklärung der Abkürzungen in obiger Tabelle. Das sind Zeichen, die keine Schriftzeichen darstellen, sondern die zur Steuerung von solchen Geräten dienen (oder dienten), die den ASCII verwenden (etwa Drucker). Steuerzeichen sind beispielsweise der Wagenrücklauf für den Zeilenumbruch oder Bell (die Glocke); ihre Definition ist historisch begründet.

Code 20 (SP) ist das Leerzeichen (engl. space oder blank), das in einem Text als Leer- und Trennzeichen zwischen Wörtern verwendet und auf der Tastatur durch die Leertaste erzeugt wird.

Die Codes 21 bis 7E sind alle druckbaren Zeichen, die sowohl Buchstaben, Ziffern und Satzzeichen (siehe Tabelle) enthalten.

Code 7F (alle sieben Bits auf eins gesetzt) ist ein Sonderzeichen, das auch als „Löschzeichen“ bezeichnet wird (DEL). Dieser Code wurde früher wie ein Steuerzeichen verwendet, um auf Lochstreifen oder Lochkarten ein bereits gelochtes Zeichen nachträglich durch das Setzen aller Bits, d. h. durch Auslochen aller sieben Markierungen, löschen zu können – einmal vorhandene Löcher kann man schließlich nicht mehr rückgängig machen. Bereiche ohne Löcher (also mit dem Code 00) fanden sich am Anfang und Ende eines Lochstreifens (NUL).

Aus diesem Grund gehörten zum eigentlichen ASCII-Code nur 126 Zeichen, denn den Bitmustern 0 (0000000) und 127 (1111111) entsprachen keine Zeichencodes. Der Kodierung 0 wurde später auch die Bedeutung „Ende der Zeichenkette“ beigelegt, und dem Zeichen 127 wurden verschiedene grafische Symbole zugeordnet.

Erweiterungen

ASCII enthält keine diakritischen Zeichen, die in fast allen Sprachen auf der Basis des lateinischen Alphabets verwendet werden. Der internationale Standard ISO 646 (1972) war der erste Versuch, dieses Problem anzugehen, was allerdings zu Kompatibilitätsproblemen führte. Er ist immer noch ein Sieben-Bit-Code, und weil keine anderen Codes verfügbar waren, wurden einige Codes in neuen Varianten verwendet.

So ist etwa die ASCII-Position 93 für die rechte eckige Klammer (]) in der deutschen Zeichensatz-Variante ISO 646-DE durch das große U mit Trema (Umlaut) (Ü) und in der dänischen Variante ISO 646-DK durch das große A mit Ring (Kroužek) (Å) ersetzt. Bei der Programmierung mussten dann die in vielen Programmiersprachen benutzten eckigen Klammern durch die entsprechenden nationalen Sonderzeichen ersetzt werden. Das verringerte die Lesbarkeit des Programmcodes und führte oft zu ungewollt komischen Ergebnissen, indem etwa die Einschaltmeldung des Apple II von „APPLE ][“ zu „APPLE ÜÄ“ mutierte.

Verschiedene Hersteller entwickelten eigene Acht-Bit-Codes. Der Codepage 437 genannte Code war lange Zeit der am weitesten verbreitete, er kam auf dem IBM-PC unter MS-DOS, und kommt heute noch in DOS- oder Eingabeaufforderungsfenstern von Microsoft Windows, zur Anwendung.

Auch bei späteren Standards wie ISO 8859 wurden acht Bits verwendet. Dabei existieren mehrere Varianten, zum Beispiel ISO 8859-1 für die westeuropäischen Sprachen. Deutschsprachige Versionen von Windows (außer DOS-Fenster) verwenden die auf ISO 8859-1 aufbauende Kodierung Windows-1252 – daher sehen z. B. bei unter DOS erstellten Textdateien die deutschen Umlaute falsch aus, wenn man sie unter Windows ansieht. Fälschlicherweise wird für die diversen Acht-Bit-Codes oft der Begriff „ANSI-Code“ pauschal verwendet.

Viele ältere Programme, die das achte Bit für eigene Zwecke verwendeten, konnten damit nicht umgehen. Sie wurden im Laufe der Zeit oft den neuen Erfordernissen angepasst.

Um den verschiedenen Anforderungen der verschiedenen Sprachen gerecht zu werden, wurde der Unicode (in seinem Zeichenvorrat identisch mit ISO 10646) entwickelt. Er verwendet bis zu 32 Bit pro Zeichen und könnte somit über vier Milliarden verschiedene Zeichen unterscheiden, wird jedoch auf etwa 1 Million erlaubte Code-Werte eingeschränkt. Damit können alle bislang von Menschen verwendeten Schriftzeichen dargestellt werden, sofern sie in den Unicode-Standard aufgenommen wurden. UTF-8 ist eine 8-Bit-Kodierung von Unicode, die zu ASCII abwärtskompatibel ist. Ein Zeichen kann dabei ein bis vier 8-Bit-Wörter einnehmen. Sieben-Bit-Varianten müssen nicht mehr verwendet werden, dennoch kann Unicode auch mit Hilfe von UTF-7 in sieben Bit kodiert werden. UTF-8 entwickelt sich zur Zeit (2005) zum einheitlichen Standard unter den meisten Betriebssystemen. So nutzen unter anderem Apples Mac OS X sowie einige Linux-Distributionen standardmäßig UTF-8 und immer mehr Webseiten werden in UTF-8 erstellt.

ASCII enthält nur wenige Zeichen, die allgemein verbindlich zur Formatierung oder Strukturierung von Text verwendet werden; diese gingen aus den Steuerbefehlen der Fernschreiber hervor. Hierzu zählen insbesondere der Zeilenvorschub (Linefeed), der Wagenrücklauf (Carriage Return), der horizontale Tabulator, der Seitenvorschub (Form Feed) und der vertikale Tabulator. In typischen ASCII-Textdateien findet sich neben den druckbaren Zeichen meist nur noch der Wagenrücklauf oder der Zeilenvorschub, um das Zeilenende zu markieren, wobei in DOS- und Windows-Systemen üblicherweise beide nacheinander verwendet werden, bei älteren Apple- und Commodore-Rechnern (ohne Amiga) nur der Wagenrücklauf, auf Unix-artigen Systemen sowie Amiga-Systemen nur der Zeilenvorschub. Die Verwendung weiterer Zeichen zur Textformatierung ist bei verschiedenen Anwendungsprogrammen zur Textverarbeitung unterschiedlich. Zur Formatierung von Text werden inzwischen eher Markup-Sprachen wie z. B. HTML verwendet.

Kompatible Zeichenkodierungen

Viele Zeichenkodierungen sind so entworfen, dass sie für Zeichen im Bereich 0…127 den gleichen Code verwenden wie ASCII und den Bereich über 127 für weitere Zeichen benutzen.

Kodierungen mit fester Länge (Auswahl)

Hier steht eine feste Anzahl Bytes für jeweils ein Zeichen. In den meisten Kodierungen ist das ein Byte pro Zeichen, bei den ostasiatischen Schriften zwei oder mehr Byte pro Zeichen.

ISO 8859 mit 15 verschiedenen Zeichenkodierungen zur Abdeckung aller europäischen Sprachen (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai
MacRoman, MacCyrillic und andere proprietäre Zeichensätze für Apple Mac Computer vor Mac OS X.
Windows- und DOS-Codepages, z. B. Windows-1252
KOI8-R für Russisch und KOI8-U für Ukrainisch
ARMSCII-8 und ARMSCII-8a für Armenisch
GEOSTD für Georgisch
ISCII für alle indischen Sprachen
TSCII für Tamil

Kodierungen mit variabler Länge

Um mehr Zeichen kodieren zu können, werden die Zeichen 0…127 in einem Byte kodiert, andere Zeichen werden durch mehrere Bytes mit Werten von über 127 kodiert.

UTF-8 für Unicode
Big 5 für traditionelles Chinesisch (Taiwan, Auslandschinesen)
EUC (Extended UNIX Coding) für mehrere ostasiatische Sprachen.
GB (Guojia Biaozhun) für vereinfachtes Chinesisch (VR China)

ASCII-Tabelle

Die ASCII-Tabelle enthält alle Kodierungen des ASCII-Zeichensatzes; siehe Steuerzeichen für die Bedeutung der Abkürzungen in der rechten Spalte:

Dez	Hex	Okt
0	0x00	000	NUL
1	0x01	001	SOH
2	0x02	002	STX
3	0x03	003	ETX
4	0x04	004	EOT
5	0x05	005	ENQ
6	0x06	006	ACK
7	0x07	007	BEL
8	0x08	010	BS
9	0x09	011	TAB
10	0x0A	012	LF
11	0x0B	013	VT
12	0x0C	014	FF
13	0x0D	015	CR
14	0x0E	016	SO
15	0x0F	017	SI
16	0x10	020	DLE
17	0x11	021	DC1
18	0x12	022	DC2
19	0x13	023	DC3
20	0x14	024	DC4
21	0x15	025	NAK
22	0x16	026	SYN
23	0x17	027	ETB
24	0x18	030	CAN
25	0x19	031	EM
26	0x1A	032	SUB
27	0x1B	033	ESC
28	0x1C	034	FS
29	0x1D	035	GS
30	0x1E	036	RS
31	0x1F	037	US

Dez	Hex	Okt
32	0x20	040	SP
33	0x21	041	!
34	0x22	042	"
35	0x23	043	#
36	0x24	044	$
37	0x25	045	%
38	0x26	046	&
39	0x27	047	'
40	0x28	050	(
41	0x29	051	)
42	0x2A	052	*
43	0x2B	053	+
44	0x2C	054	,
45	0x2D	055	-
46	0x2E	056	.
47	0x2F	057	/
48	0x30	060	0
49	0x31	061	1
50	0x32	062	2
51	0x33	063	3
52	0x34	064	4
53	0x35	065	5
54	0x36	066	6
55	0x37	067	7
56	0x38	070	8
57	0x39	071	9
58	0x3A	072	:
59	0x3B	073	;
60	0x3C	074	<
61	0x3D	075	=
62	0x3E	076	>
63	0x3F	077	?

Dez	Hex	Okt
64	0x40	100	@
65	0x41	101	A
66	0x42	102	B
67	0x43	103	C
68	0x44	104	D
69	0x45	105	E
70	0x46	106	F
71	0x47	107	G
72	0x48	110	H
73	0x49	111	I
74	0x4A	112	J
75	0x4B	113	K
76	0x4C	114	L
77	0x4D	115	M
78	0x4E	116	N
79	0x4F	117	O
80	0x50	120	P
81	0x51	121	Q
82	0x52	122	R
83	0x53	123	S
84	0x54	124	T
85	0x55	125	U
86	0x56	126	V
87	0x57	127	W
88	0x58	130	X
89	0x59	131	Y
90	0x5A	132	Z
91	0x5B	133	[
92	0x5C	134	\
93	0x5D	135	]
94	0x5E	136	^
95	0x5F	137	_

Dez	Hex	Okt
96	0x60	140	`
97	0x61	141	a
98	0x62	142	b
99	0x63	143	c
100	0x64	144	d
101	0x65	145	e
102	0x66	146	f
103	0x67	147	g
104	0x68	150	h
105	0x69	151	i
106	0x6A	152	j
107	0x6B	153	k
108	0x6C	154	l
109	0x6D	155	m
110	0x6E	156	n
111	0x6F	157	o
112	0x70	160	p
113	0x71	161	q
114	0x72	162	r
115	0x73	163	s
116	0x74	164	t
117	0x75	165	u
118	0x76	166	v
119	0x77	167	w
120	0x78	170	x
121	0x79	171	y
122	0x7A	172	z
123	0x7B	173	{
124	0x7C	174	\|
125	0x7D	175	}
126	0x7E	176	~
127	0x7F	177	DEL

Siehe auch

Weblinks

Erläuterungen zu den Steuerzeichen (englisch)
ASCII Konvertierung

Quellenangaben

↑ Grundlagen der technischen Informatik für Technische Informatiker, HAW Hamburg (PDF)

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

ASCII — 〈[ạskı] kurz für〉 ASCII Code * * * ASCII [Abk. für American Standard Code for Information Interchange, dt. »amerik. Standardcode für den Informationsaustausch«] (ASCII Code), ein Code, d. h. ein Zuordnungsschema, mit dem Ziffern, Buchstaben… … Universal-Lexikon
ASCII — [ˈæski] noun [uncountable] COMPUTING American Standard Code for Information Interchange; a simple computer code in which letters are represented by numbers. Many different computers can read information stored in ASCII, so people often change… … Financial and business terms
ASCII — [ aski ] n. m. • 1982; acronyme angl. de American Standard Code for Information Interchange ♦ Inform. Code ASCII : code utilisé dans les échanges entre un périphérique et un ordinateur, ou pour le codage interne des données. ASCII [aski] n. m.… … Encyclopédie Universelle
ASCII — koduotė statusas T sritis informatika apibrėžtis 7 bitų ↑koduotė, įteisinta JAV standartu ir užregistruota kaip tarptautinio standarto modifikacija ISO 646 IRV. Ši koduotė JAV dažnai tapatinama su bet kokių 7 arba 8 bitų tekstų koduote ir… … Enciklopedinis kompiuterijos žodynas
ASCII — n. [Acronym: American Standard Code for Information Interchange.](Computers) 1. the American Standard Code for Information Interchange, a code consisting of a set of 128 7 bit combinations used in digital computers internally, for display… … The Collaborative International Dictionary of English
Ascii — As ci*i, Ascians As cians, n. pl. [L. ascii, pl. of ascius, Gr. ? without shadow; a priv. + ? shadow.] Persons who, at certain times of the year, have no shadow at noon; applied to the inhabitants of the torrid zone, who have, twice a year, a… … The Collaborative International Dictionary of English
ASCII — 〈[ạskı] m.; Gen.: od. s; Pl.: unz.; kurz für〉 ASCII Code … Lexikalische Deutsches Wörterbuch
ASCII — (АСКИИ) Стандартный комплект знаков шрифта, определенный Американским национальным институтом стандартов (ANSI). Построен на основе семибитной кодировки, поэтому максимально насчитывает 128 знаков, из которых первые 32 являются управляющими и … Шрифтовая терминология
Ascĭi — (gr., Unschattige, Schattenlose), Erdbewohner, welche zur Mittagszeit nur unter sich Schatten werfen; unter den Wendekreisen trifft dies einmal, zwischen denselben zweimal des Jahres, diese heißen Amphiscii (Zweischattige); Antiscii… … Pierer's Universal-Lexikon
Ascĭi — (lat.), s. Amphiscii … Meyers Großes Konversations-Lexikon
Ascii — Ascii, die Schattenlosen, Beiname der Tropenbewohner, welche zweimal im Jahre zur Mittagszeit keinen Schatten werfen, weil ihnen die Sonne über dem Scheitel steht … Herders Conversations-Lexikon

Academic dictionaries and encyclopedias

ASCII

Inhaltsverzeichnis

Kodierung

Geschichte

Zusammensetzung

Erweiterungen

Kompatible Zeichenkodierungen

Kodierungen mit fester Länge (Auswahl)

Kodierungen mit variabler Länge

ASCII-Tabelle

Siehe auch

Weblinks

Quellenangaben

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

ASCII

Inhaltsverzeichnis

Kodierung

Geschichte

Zusammensetzung

Erweiterungen

Kompatible Zeichenkodierungen

Kodierungen mit fester Länge (Auswahl)

Kodierungen mit variabler Länge

ASCII-Tabelle

Siehe auch

Weblinks

Quellenangaben

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link