Mario Sedlak
Computer
Hauptthemen
Screenshot
Screenshot

Dasselbe Verzeichnis auf einem FTP-Server mit zwei verschiedenen Systemen betrachtet: Jedesmal ein anderer Zeichensalat, weil der Server keinen einheitlichen Zeichensatz verwendet.

Probleme mit Zeichensätzen auf FTP-Servern

Wieso gibt es bei manchen FTP-Servern Probleme, wenn Dateinamen Umlaute oder andere Nicht-ASCII-Zeichen enthalten?

Grundlagen

Ursprünglich waren bei FTP keine Umlaute vorgesehen. Erst 1999 wurde eine Erweiterung (RFC 2640) spezifiziert, die im Namen von Dateien und Ordnern Unicode-Zeichen erlaubt. Diese müssen mit UTF-8 codiert werden.

FTP-Server geben an, ob sie diesen neuen Standard unterstützen. Tun sie das nicht, darf man nur ASCII-Zeichen (also Unicode-Zeichen bis Nr. 127) im Dateinamen verwenden, wenn man keine Probleme haben will. FTP hat keine Möglichkeit, den verwendeten Zeichensatz anzugeben.

In der Praxis

Viele FTP-Server zwingen die Benutzer nicht zu ASCII oder UTF-8, sondern erlauben – regelwidrig – beliebige Zeichensätze. Die Dateinamen sind eine Abfolge von Bytes, und wenn darin Nummern größer als 127 vorkommen, speichern sie das einfach so ab, wie es vom Benutzer beim Hochladen gesendet wurde. Das ergibt zwangsweise Buchstabensalat, wenn diese Namen ein anderer Benutzer mit einem anderen Zeichensatz betrachtet (wie auf den Screenshots zu sehen).

Beispiele

Konvertierung des Inhalts von Textdateien

Verschiedene Betriebssysteme verwenden unterschiedliche Zeichen für das Beginnen einer neuen Zeile. FTP-Zugriffsprogramme tauschen diese Zeichen i. A. automatisch aus, sodass sie den Konventionen des jeweiligen Systems entsprechen und richtig angezeigt werden. In Sonderfällen läuft das aber schief und führt zu falschen Ergebnissen.

Weiter

Internet: Websites
Zeichensätze: Zeichensätze im Internet

Seite erstellt am 2.2.2020 – letzte Änderung am 28.2.2020