Beispiel-Unicode-Zeichen:
(Da laufend neue Zeichen hinzukommen, kann man nicht erwarten, dass alle Zeichen überall angezeigt werden.)

Buchstabe mit Breve
(Zeichennr. 287)

Buchstabe mit Hatschek
(Zeichennr. 487)

€

Euro-Zeichen
(Zeichennr. 8364)

‰

Promille-Zeichen
(Zeichennr. 8240)

ℝ

Mathematisches Symbol für reelle Zahlen
(Zeichennr. 8477)

☺

Einfacher Smilie
(Zeichennr. 9786)

东

Chinesisches Schriftzeichen
(Zeichennr. 19 996)

ﷺ

Arabische Schriftzeichen
(Zeichennr. 65 018)

𓀀

Ägyptische Hieroglyphe
(Zeichennr. 77 824)

🇦🇹

Österreichische Flagge oder anderes Symbol für Österreich
(Zeichennr. 127 462 und 127 481)

📸⃠

Fotografieren mit Blitz verboten
(Zeichennr. 128 248 und 8416)

👱🏿‍♀️

Blonde Frau mit dunkler Hautfarbe
(Zeichennr. 128 113, 127 999, 8205, 9792 und 65 039)

Unicode

Unicode ist der internationale Standardzeichensatz, der alle lokalen Varianten von Zeichensätzen überflüssig machen soll. Er ist eine Erweiterung von ASCII und ISO-8859-1, d. h. die Unicode-Zeichen Nr. 0–255 stimmen mit diesen älteren Zeichensätzen, die in westlichen Ländern gängig sind oder waren, überein. Bis jetzt enthält Unicode rund 130 000 Zeichen. Weitere werden laufend hinzugefügt.

Varianten

Name	Vorteile	Nachteile
UTF-8 Zeichen mit einer Nummer bis 127 werden mit einem Byte codiert. Zeichen mit einer Nummer > 127 werden als eine Folge von 2–4 Bytes codiert. Jedes dieser Bytes entspricht einer Nummer > 127, sodass es nicht mit einem ASCII-Zeichen verwechselt werden kann. (Z. B. werden Zeilenumbrüche – Zeichennummern 10 und 13 – zwischen Windows- und Unix-Standards konvertiert.)	Reiner 7-bit-ASCII-Text ist gleichzeitig UTF-8-codiert. Keine Umwandlung erforderlich! Alte Software kann zumindest die 7-bit-ASCII-Zeichen im UTF-8-Code darstellen. Lediglich die Zeichen mit einer Nummer > 127 ergeben Buchstabensalat, wenn die Software nur für ASCII oder einen 8-bit-Zeichensatz geschrieben wurde.	Deutsche Umlaute brauchen 2 Bytes statt einem. Wechselnde Bytesanzahl pro Zeichen, daher kein direkter Zugriff auf das x-te Zeichen möglich
UTF-16 Zeichen mit einer Nummer bis 65 535 werden mit 2 Bytes codiert. Zeichen mit einer Nummer > 65 535 werden als eine Folge von 4 Bytes codiert. Deswegen gibt es keine Unicode-Zeichen mit einer Nummer zwischen 55 296 und 57 343 – mit diesen Zahlen werden in UTF-16 die Zeichen mit einer Nummer zwischen 65 536 und 1 114 111 codiert.	Bei Beschränkung auf die gängigsten Zeichen ist ein direkter Zugriff auf das x-te Zeichen möglich.	für deutschen Text doppelter Speicherplatzbedarf 2 verschiedene Untervarianten: höherwertiges Byte zuerst (Big Endian) niederwertiges Byte zuerst (Little Endian)
UTF-32 Alle Zeichen werden durch 4 Bytes codiert.	einheitliche Länge pro Zeichen	für deutschen Text vierfacher Speicherplatzbedarf Von den 32 bit der 4 Bytes werden nur 21 bit genutzt.

Name

Vorteile

Nachteile

UTF-8

Zeichen mit einer Nummer bis 127 werden mit einem Byte codiert.
Zeichen mit einer Nummer > 127 werden als eine Folge von 2–4 Bytes codiert. Jedes dieser Bytes entspricht einer Nummer > 127, sodass es nicht mit einem ASCII-Zeichen verwechselt werden kann. (Z. B. werden Zeilenumbrüche – Zeichennummern 10 und 13 – zwischen Windows- und Unix-Standards konvertiert.)

Reiner 7-bit-ASCII-Text ist gleichzeitig UTF-8-codiert. Keine Umwandlung erforderlich!
Alte Software kann zumindest die 7-bit-ASCII-Zeichen im UTF-8-Code darstellen. Lediglich die Zeichen mit einer Nummer > 127 ergeben Buchstabensalat, wenn die Software nur für ASCII oder einen 8-bit-Zeichensatz geschrieben wurde.

Deutsche Umlaute brauchen 2 Bytes statt einem.
Wechselnde Bytesanzahl pro Zeichen, daher kein direkter Zugriff auf das x-te Zeichen möglich

UTF-16

Zeichen mit einer Nummer bis 65 535 werden mit 2 Bytes codiert.
Zeichen mit einer Nummer > 65 535 werden als eine Folge von 4 Bytes codiert. Deswegen gibt es keine Unicode-Zeichen mit einer Nummer zwischen 55 296 und 57 343 – mit diesen Zahlen werden in UTF-16 die Zeichen mit einer Nummer zwischen 65 536 und 1 114 111 codiert.

Bei Beschränkung auf die gängigsten Zeichen ist ein direkter Zugriff auf das x-te Zeichen möglich.

für deutschen Text doppelter Speicherplatzbedarf
2 verschiedene Untervarianten:
- höherwertiges Byte zuerst (Big Endian)
- niederwertiges Byte zuerst (Little Endian)

UTF-32

Alle Zeichen werden durch 4 Bytes codiert.

einheitliche Länge pro Zeichen

für deutschen Text vierfacher Speicherplatzbedarf
Von den 32 bit der 4 Bytes werden nur 21 bit genutzt.

Unicode-Zeichenketten werden meist mit UTF-8 oder UTF-16 codiert, während einzelne Zeichen manchmal als UTF-32 dargestellt werden.

Die Codierung in UTF-8 und UTF-16 ist so gewählt, dass einzelne Fehler (z. B. Abschneiden einer zusammengehörigen Bytefolge) zu keinen Folgefehlern (und damit Zeichensalat) führen. So ist zu verstehen, wieso nicht die kürzestmöglichen Bytefolgen verwendet werden.

Vergangenheit

Name	Vorteile	Nachteile
UTF-7 Hier werden nur 7 bit pro Byte verwendet.	In den 1970ern und vereinzelt noch in den 1990ern hatten manche Computer nur 7 bit pro Byte.	Heute haben alle Computer 8 bit pro Byte. Daher wird UTF-7 nicht mehr gebraucht. Dieses Format hat sich sowieso nie durchsetzen können.

Name

Vorteile

Nachteile

UTF-7

Hier werden nur 7 bit pro Byte verwendet.

In den 1970ern und vereinzelt noch in den 1990ern hatten manche Computer nur 7 bit pro Byte.

Heute haben alle Computer 8 bit pro Byte. Daher wird UTF-7 nicht mehr gebraucht. Dieses Format hat sich sowieso nie durchsetzen können.

Der erste Unicode-Standard wurde 1991 veröffentlicht. Damals war die Idee noch, einen Zeichensatz wie ASCII, nur mit 65 536 statt 256 Zeichen zu definieren. Diese Zahl reichte aber nicht aus, da es allein 70 000 chinesische Zeichen gibt. 1996 wurde die Erweiterung auf bis zu 1 114 112 Zeichen (UTF-16) vorgenommen.

UTF stand ursprünglich für Universal Transfer Format. Wie der Name sagt, war UTF-8 nur für die Übertragung von Unicode-Texten gedacht. Nachdem Unicode aber kein 2-Bytes-ASCII-Code mehr ist, gibt es auch keinen Grund mehr, UTF-16 anstatt UTF-8 zu verwenden, sagen Kritiker.

Heute wird UTF als Unicode Transformation Format oder dgl. erklärt.

Zukunft

Es zeichnet sich ab, dass UTF-8 zum Standardzeichensatz wird. Im Internet ist er das bereits.

Auch langfristig soll es nicht mehr als 1 114 112 Unicode-Zeichen geben. UTF-8 könnte mehr darstellen, nicht aber UTF-16.

Zeichensatz

Unicode soll alle Zeichen enthalten, die es in irgendeiner Sprache gibt oder die eine gewisse Verbreitung erreicht haben. Wie die Zeichen aussehen, ist keine Sache von Unicode. Z. B. kann man ein A auf verschiedene Art schreiben (geschwungen, Fraktur, ...), aber es ist immer dasselbe Unicode-Zeichen (Nr. 65).

Welche Zeichen aufgenommen werden

Vor allem bei chinesischen Schriftzeichen lässt sich nicht eindeutig sagen, ob die Varianten, die in China, Japan und Korea verwendet werden, das gleiche oder verschiedene Zeichen darstellen. Unicode hat alle Zeichen mit gleicher Bedeutung und Struktur zusammengefasst, auch wenn es sie in verschiedenen (z. B. älteren) Schreibstilen gibt (Han-Vereinheitlichung). Viele Ostasiaten hätten lieber für jedes Zeichen einen eigenen Code. Ich kann die Begründung des Unicode-Konsortiums aber nachvollziehen.
Um verschiedene Varianten von chinesischen Schriftzeichen darstellen zu können (was z. B. für japanische Ortsnamen nötig ist) hat man Variantenselektoren (Steuerzeichen) eingeführt. Man könnte dasselbe erreichen, wenn man die betreffenden Zeichen in einer anderen Schriftart darstellt, aber offenbar ist es der Anspruch von Unicode, dass dies nicht nötig sein soll.
Warum es bei den chinesischen Unicode-Zeichen eigene Codes für diverse Einheitennamen (m², km, kW, MHz, bar, ...) gibt, weiß ich nicht. Vielleicht wurde dies so aus älteren Zeichensätzen übernommen.
Es gibt weitere Zeichengruppen (z. B. fi), die einen eigenen Code haben, weil sie anders dargestellt werden. Das diene aber nur der Rückwärtskompatibilität und sollte nicht verwendet werden. Weitere solche Zusammenfassungen von Zeichen in ein einziges werden nicht angelegt.
Erstaunlicherweise wurden nicht alle historischen Zeichensätze, z. B. vom Commodore 64 oder Teletext in Unicode übernommen. Das liegt wohl daran, dass Unicode keine Blockgrafik unterstützen will. (Der MS-DOS-Zeichensatz ist eine Ausnahme.)
Hingegen werden Grafiken in den Unicode-Zeichensatz aufgenommen, wenn sie typischerweise mit Text gemischt werden (z. B. Smilies und dgl.). Hier gibt es sogar Variantenselektoren für die Hautfarbe eines Smilies oder dargestellten Menschen.

Komplexität

Der gleiche Buchstabe kommt mehrfach im Unicode-Zeichensatz vor. Das ist gut begründbar, wenn es sich z. B. um das große griechische Beta handelt, das wie ein großes B aussieht: Bei der Umwandlung in Kleinbuchstaben werden daraus unterschiedliche Zeichen. Andererseits gibt es viele Varianten, die aus früheren Zeichensätzen übernommen wurden und es gibt auch Unicode-Steuerzeichen, um beliebige neue Zeichen zu machen, z. B. Umlaute (auch wenn es hierfür eigene Zeichennummern gibt).
Unicode-Text muss normalisiert werden, bevor er effizient weiterverarbeitet werden kann. D. h. aus mehreren möglichen Varianten wird eine ausgewählt – welche, ist aber auch wieder nicht klar, deswegen gibt es mehrere Normalformen.
Wegen der "Selbstbau"-Zeichen und Variantenselektoren ist selbst in UTF-32 nicht mehr eine Zeichennummer gleichbedeutend mit einem Zeichen (wie in allen 8-bit-Zeichensätzen).
Unicode enthält vielfältige Varianten von Leerzeichen.
Es ist nicht leicht herauszufinden, welches Zeichen man eigentlich verwenden soll, wenn es mehrere mögliche gibt. Nur wenige Zeichen sind offiziell missbilligt (englisch: deprecated) – und selbst da bleibt offen, wieso man sie nicht nutzen soll, da für alle Unicode-Zeichen eine unendliche Lebensdauer garantiert wird.

Meine Meinung

Ich fände eine simple Zeichensatz-Tabelle mit einer 1:1-Beziehung zwischen Nummer und Zeichen besser. Die verschiedenen Varianten für das gleiche Zeichen verursachen immer wieder Probleme und lassen sich schwerer verarbeiten.

Unicode scheint sich mehr danach zu richten, was üblich ist, anstatt was sinnvoll ist. Es ist – wie nicht anders zu erwarten – ein riesiger Kompromiss.

Grafiken hätte ich gar nicht aufgenommen, da diese mindestens genauso gut als HTML-Code definiert und eingebunden werden könnten. Interessanterweise ist Unicode ausdrücklich nur für reinen Text gedacht. Warum führen sie dann Grafiken und eine Art Auszeichnungssprache ein? Aufgrund der damit verbundenen unbegrenzten Möglichkeiten kann man nie sicher sein, dass der Unicode überall so dargestellt wird, wie man es erwartet.

Schön, dass es alle mathematischen Symbole in Unicode gibt. Eigene Codes für fette und kursive Buchstaben hätte ich aber nicht gebraucht.

Typkennzeichnung in der Datei

Unicode-Textdateien enthalten manchmal eine bestimmte kurze Bytefolge am Anfang, anhand derer die gewählte Codierung erkannt werden kann. Sowohl ihr Vorhandensein als auch ihr Fehlen kann Probleme machen. Es handelt sich um eine Art "magische Zahl" wie sie auch für andere Dateitypen zur Unterscheidung verwendet wird.

Mein Fazit

Ein weltweit einheitlicher Zeichensatz ist natürlich sehr sinnvoll. Leider wird es aber noch lange dauern, bis man sich darauf verlassen kann, dass alle Unicode-Zeichen überall verstanden werden. Ich vermeide daher (noch) Unicode.