Zeichensätze

Computer können nur Zahlen verarbeiten. Was die Zahlen bedeuten, ist Konvention. Eine Zuordnung von Zahlen zu Zeichen heißt Zeichensatz oder

Codepage (z. B. in DOS oder Active-Server-Pages am Microsoft Internet Information Server)
Collation in Datenbank-Servern
Zeichencode in der Wikipedia

Es sind – leider – verschiedene Zeichensätze gebräuchlich:

ASCII (7 bit)

Dieser Standard wurde in den 1960er Jahren festgelegt – der Zeit von Fernschreibern und Lochkarten. Die ASCII-Zeichensatztabelle ist eine der wenigen Dinge aus der Computerwelt, die ich in der HTL gelernt habe und die immer noch aktuell sind.

Die ersten 32 und das letzte Zeichen sind nicht druckbare Steuerzeichen, von denen die wenigsten heute noch verwendet werden. Z. B. in Datendateien im Textformat wäre eines dieser Steuerzeichen als Trennzeichen besser als ein Komma, Strichpunkt oder auch Tabulator, weil es in gewöhnlichen Daten nicht vorkommt. Die ungenutzten Zeichen sind eine Verschwendung von Codierungsmöglichkeiten, die z. B. für Sonderzeichen besser genutzt werden könnten, aber man kann einen einmal festgelegten Zeichensatz nicht mehr so ohne Weiteres ändern, weil dann bestehende Texte und Anwendungen gestört würden.

Im ASCII-Code fehlen Umlaute und andere Zeichen, die es in der englischen Sprache nicht gibt. Als Notlösung definierte man verschiedene ASCII-Dialekte, die statt gewisser Satzzeichen die regional benötigten Sonderzeichen enthalten. Blöd, dass man z. B. in manchen Programmiersprachen die überschriebenen Satzzeichen benötigte. Ich erinnere mich an den Teletext, wo manchmal Programmlistings veröffentlicht wurden, in denen man beim Abtippen gewisse Zeichen ersetzen musste.

Witzig: Die Sowjetunion verhinderte, dass in der offiziellen internationalen ASCII-Version das Dollarzeichen enthalten ist. De facto wurde dann aber der US-Dialekt von ASCII Weltstandard.

8 bit

Mit der Erweiterung auf 8 bit war genug Platz für alle Umlaute eines Landes, sodass die ASCII-Zeichen (7 bit) ab nun unangetastet bleiben konnten. Standards setzte DOS Anfang der 1980er Jahre. Die DOS-Zeichensätze enthalten Grafikzeichen, die heute nicht mehr benötigt werden. Stattdessen wurden in folgenden Zeichensätzen mehr regionale Sonderzeichen untergebracht:

ISO-8859-1 (auch: Latin-1) – Das ist der normale Zeichensatz für westeuropäische Sprachen (inkl. Deutsch). Diesen verwende ich auf meiner Website. Leider verschenkt er 32 weitere Zeichen für nicht druckbare Steuercodes.
Windows-1252 (= "offizielle" Erweiterung von ASCII, auch "ANSI" genannt) codiert 27 Zeichen anstatt der kaum gebrauchten Steuerzeichen. War Standard unter Windows.
ISO-8859-15 (auch: Latin-9) ergänzt unter anderem das in ISO-8859-1 fehlende Eurozeichen €. Wird auf Websites aber kaum verwendet. Daher bleibe ich mit meiner Website bei ISO-8859-1 und codiere im HTML das Eurozeichen als €. Wenn ich mit Thunderbird Mails schicke, dann verwende ich ISO-8859-15, wenn ich ein Eurozeichen brauche.

Unicode (21 bit)

Heute sind alle regional verschiedenen Zeichensätze in einem Code vereint. Dieser Unicode wird von praktisch allen modernen Computern verwendet. Leider sind damit nicht – wie erhofft – alle Probleme mit Zeichensätzen verschwunden, denn jedes Unicode-Zeichen hat zwar eine eindeutige und für immer fixe Nummer, aber es gibt mehrere Varianten, wie diese Nummer abgespeichert werden kann. Außerdem ist Unicode nicht so simpel wie ASCII, wo jeder Nummer genau ein Zeichen entspricht und jedem Zeichen genau eine Nummer.

Unicode ist eine Erweiterung von ISO-8859-1, d. h. die ersten 256 Zeichen sind in beiden Zeichensätzen gleich. Das erleichtert den Wechsel. Ich bleibe aber dennoch beim alten 8-Bit-Zeichensatz, weil dieser für meine Zwecke ausreicht und Probleme seltener sind. Dass Unicode-Zeichen auf jedem Computer angezeigt werden und von jeder Software richtig verarbeitet werden, kann nicht erwartet werden.

Andere Zeichensätze

Unter Windows findet man eine Liste verfügbarer Zeichensätze in der Registry unter dem Schlüssel

HKEY_CLASSES_ROOT\MIME\Database\Charset

Alle international genormten Zeichensätze sind auf der Website der Internet Assigned Numbers Authority aufgezählt. Wie oft diese im Web verwendet werden und wie sich diese Verteilung im Laufe der Zeit ändert, wird auf W3Techs.com veröffentlicht.

Weiter

Unicode

Weblinks

SelfHTML-Wiki: Zeichenkodierung – Ausführlichere, praxisnahe Einführung

Seite erstellt am 17.3.2017 – letzte Änderung am 17.3.2017

Computer