Mario Sedlak
Computer
Hauptthemen

Zeichensätze im Internet

Auf Webseiten sollte immer ausdrücklich angegeben werden, welcher Zeichensatz verwendet wird. Zumindest früher waren (z. B. im Firefox) sonst Darstellungsfehler möglich.

Auf eine Codierung mit ä, ß usw. kann dann verzichtet werden. Ich verwende so eine Codierung nur für Zeichen, die es in dem von mir gewählten Zeichensatz ISO-8859-1 (= westeuropäische Zeichen) nicht gibt:

HTML-Codierung[1] Ergebnis
€
Č Č
č č
ć ć
ě ě
Ǧ Ǧ
ǧ ǧ
Ő Ő
ő ő
ř ř
Š Š
š š
Ş Ş
ş ş
Ů Ů
ů ů
Ű Ű
ű ű
Ž Ž
ž ž

Wenn du in obiger Tabelle nicht alle Zeichen siehst, fehlen sie auf deinem Computer. Ich kann diesen Fehlerfall nicht leicht abfangen. Das ist der Hauptgrund, wieso ich den alten 8-bit-Zeichensatz ISO-8859-1 beibehalte: Diese Zeichen sind auch auf uralten Computern verfügbar, und ich will, dass meine Website problemlos überall funktioniert – nicht nur auf modernen Systemen.

Standard ist heutzutage 8-bit-Unicode (UTF-8). Siehe Verbreitungs-Statistiken auf W3Techs.com

Test-Downloads

Obwohl alle diese Dateien mit den richtigen Kopfzeilen geliefert werden, kommen i. A. nur jene, die eine Typkennzeichnung (Byte-Order-Mark) am Dateianfang haben, richtig an. Die anderen ergeben Fehler oder Zeichensalat.

Automatische Zeichensatz-Umwandlung

Normalerweise spielt es keine Rolle, ob ISO-8859-1, UTF-8 oder ein anderer gängiger Zeichensatz verwendet wird. Dein Browser konvertiert automatisch auf den Zeichensatz deines Computers, sodass du i. A. überhaupt nichts von den verschiedenen Codiermöglichkeiten merkst (auch wenn du die Webseite abspeicherst und dann von der Festplatte öffnest).

Zu meinem Erstaunen gilt das aber nicht für Textdateien, die du direkt herunterlädst. Hier kann (und soll) der Server zwar ebenfalls den Zeichensatz-Namen mitschicken, aber diese Information wird erstaunlicherweise nicht verwendet. Das hat mich ziemlich verwundert, wie ich das 2017 festgestellt habe. Da wird an ausgefeilten Erweiterungen des HTML-Standards getüftelt, der Flash und Java-Applets unnötig machen soll, aber so einfache Sachen wie das Abspeichern einer Textdatei werden nicht richtig unterstützt ...

Weiter

Computer: Mail
Zeichensätze: Zeichensätze in Visual Basic Script

Weblinks

Quellen

[1] Unicode/UTF-8-Zeichentabelle der ersten 1024 Zeichen