Unicode
Aus FI-Wiki
Unicode
Unicode ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu – unabhängig von Sprache, Schrift oder Plattform.
Codepunkte
Jedes Zeichen erhält einen eindeutigen Wert in der Form: U+xxxx Beispiel:
- A → U+0041
- € → U+20AC
- 😊 → U+1F60A
UTF-8
UTF-8 ist die heute wichtigste Unicode-Kodierung.
Eigenschaften:
- variable Länge: 1 bis 4 Byte pro Zeichen
- ASCII-kompatibel (0–127 bleiben gleich)
- platzsparend für westliche Sprachen
- weltweiter Standard für Web, Dateien, Protokolle
UTF-16 und UTF-32
| Kodierung | Beschreibung |
|---|---|
| UTF-16 | 2 oder 4 Byte pro Zeichen; häufig in Windows/Java |
| UTF-32 | 4 Byte pro Zeichen; einfacher, aber weniger platzsparend |
Vorteile von Unicode
- unterstützt alle Sprachen (Deutsch, Arabisch, Chinesisch, Emojis usw.)
- einheitlicher Standard weltweit
- löst Probleme älterer Systeme (ASCII, ISO-8859-1)
Kurzmerksatz
Unicode weist jedem Zeichen weltweit einen eindeutigen Codepunkt zu – UTF-8 speichert ihn effizient in Bytes.
