Zeichensätze
Computer können nur Zahlen verarbeiten. Was die Zahlen bedeuten, ist Konvention. Eine Zuordnung von Zahlen zu Zeichen heißt Zeichensatz oder
- Codepage (z. B. in DOS oder Active-
Server- am Microsoft Internet Information Server)Pages - Collation in Datenbank-
Servern - Zeichencode in der Wikipedia
Es sind – leider – verschiedene Zeichensätze gebräuchlich:
ASCII (7 bit)
Dieser Standard wurde in den 1960er Jahren festgelegt – der Zeit von Fernschreibern und Lochkarten. Die ASCII-
Die ersten 32 und das letzte Zeichen sind nicht druckbare Steuerzeichen, von denen die wenigsten heute noch verwendet werden. Z. B. in Datendateien im Textformat wäre eines dieser Steuerzeichen als Trennzeichen besser als ein Komma, Strichpunkt oder auch Tabulator, weil es in gewöhnlichen Daten nicht vorkommt. Die ungenutzten Zeichen sind eine Verschwendung von Codierungsmöglichkeiten, die z. B. für Sonderzeichen besser genutzt werden könnten, aber man kann einen einmal festgelegten Zeichensatz nicht mehr so ohne Weiteres ändern, weil dann bestehende Texte und Anwendungen gestört würden.
Im ASCII-
Witzig: Die Sowjetunion verhinderte, dass in der offiziellen internationalen ASCII-
8 bit
Mit der Erweiterung auf 8 bit war genug Platz für alle Umlaute eines Landes, sodass die ASCII-
- ISO-
8859- (auch: Latin-1 1) – Das ist der normale Zeichensatz für westeuropäische Sprachen (inkl. Deutsch). Diesen verwende ich auf meiner Website. Leider verschenkt er 32 weitere Zeichen für nicht druckbare Steuercodes. - Windows-
1252 (= "offizielle" Erweiterung von ASCII, auch "ANSI" genannt) codiert 27 Zeichen anstatt der kaum gebrauchten Steuerzeichen. War Standard unter Windows. - ISO-
8859- (auch: Latin-15 9) ergänzt unter anderem das in ISO- 8859-1 fehlende Eurozeichen €. Wird auf Websites aber kaum verwendet. Daher bleibe ich mit meiner Website bei ISO- 8859-1 und codiere im HTML das Eurozeichen als €
. Wenn ich mit Thunderbird Mails schicke, dann verwende ich ISO-8859- 15, wenn ich ein Eurozeichen brauche.
Unicode (21 bit)
Heute sind alle regional verschiedenen Zeichensätze in einem Code vereint. Dieser Unicode wird von praktisch allen modernen Computern verwendet. Leider sind damit nicht – wie erhofft – alle Probleme mit Zeichensätzen verschwunden, denn jedes Unicode-
Unicode ist eine Erweiterung von ISO-
Andere Zeichensätze
Unter Windows findet man eine Liste verfügbarer Zeichensätze in der Registry unter dem Schlüssel
HKEY_CLASSES_ROOT\MIME\Database\Charset
Alle international genormten Zeichensätze sind auf der Website der Internet Assigned Numbers Authority aufgezählt. Wie oft diese im Web verwendet werden und wie sich diese Verteilung im Laufe der Zeit ändert, wird auf W3Techs.com veröffentlicht.
Weiter
Weblinks
- SelfHTML-
Wiki: Zeichenkodierung – Ausführlichere, praxisnahe Einführung