Unicode: Unterschied zwischen den Versionen
Aus FI-Wiki
Die Seite wurde neu angelegt: „== Unicode == '''Unicode''' ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu – unabhängig von Sprache, Schrift oder Plattform. === Codepunkte === Jedes Zeichen erhält einen eindeutigen Wert in der Form: ''U+xxxx'' Beispiel: * A → U+0041 * € → U+20AC * 😊 → U+1F60A === UTF-8 === '''UTF-8''' ist die heute wichtigste Unicode-Kodi…“ |
|||
| (2 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
| Zeile 2: | Zeile 2: | ||
'''Unicode''' ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. | '''Unicode''' ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. | ||
Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu | Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu, unabhängig von Sprache, Schrift oder Plattform. | ||
=== | === Codepoints === | ||
Jedes Zeichen erhält einen eindeutigen Wert in der Form: | Jedes Zeichen erhält einen eindeutigen Wert (Codepoint) in der Form: | ||
''U+xxxx'' | ''U+xxxx'' | ||
Beispiel: | Beispiel: | ||
| Zeile 17: | Zeile 17: | ||
Eigenschaften: | Eigenschaften: | ||
* variable Länge: '''1 bis 4 Byte pro Zeichen''' | * variable Länge: '''1 bis 4 Byte pro Zeichen''' | ||
* ASCII-kompatibel (0–127 bleiben gleich) | * [[ASCII]]-kompatibel (0–127 bleiben gleich) | ||
* platzsparend für westliche Sprachen | * platzsparend für westliche Sprachen | ||
* weltweiter Standard für Web, Dateien, Protokolle | * weltweiter Standard für Web, Dateien, Protokolle | ||
{| class="wikitable" style="width:100%; text-align:center;" | |||
! Unicode-Codepunkt-Bereich !! Byte-Länge in UTF-8 !! Beispiel | |||
|- | |||
| U+0000 – U+007F || '''1 Byte''' || A → U+0041 | |||
|- | |||
| U+0080 – U+07FF || '''2 Byte''' || € → U+20AC | |||
|- | |||
| U+0800 – U+FFFF || '''3 Byte''' || ä → U+00E4 | |||
|- | |||
| U+10000 – U+10FFFF || '''4 Byte''' || 😊 → U+1F60A | |||
|} | |||
=== UTF-16 und UTF-32 === | === UTF-16 und UTF-32 === | ||
| Zeile 33: | Zeile 45: | ||
* unterstützt alle Sprachen (Deutsch, Arabisch, Chinesisch, Emojis usw.) | * unterstützt alle Sprachen (Deutsch, Arabisch, Chinesisch, Emojis usw.) | ||
* einheitlicher Standard weltweit | * einheitlicher Standard weltweit | ||
* löst Probleme älterer Systeme (ASCII, ISO-8859-1) | * löst Probleme älterer Systeme ([[ASCII]], ISO-8859-1) | ||
=== Kurzmerksatz === | === Kurzmerksatz === | ||
'''Unicode weist jedem Zeichen weltweit einen eindeutigen Codepunkt zu | '''Unicode weist jedem Zeichen weltweit einen eindeutigen Codepunkt zu und UTF-8 speichert ihn effizient in Bytes.''' | ||
Aktuelle Version vom 10. Dezember 2025, 14:38 Uhr
Unicode
Unicode ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu, unabhängig von Sprache, Schrift oder Plattform.
Codepoints
Jedes Zeichen erhält einen eindeutigen Wert (Codepoint) in der Form: U+xxxx Beispiel:
- A → U+0041
- € → U+20AC
- 😊 → U+1F60A
UTF-8
UTF-8 ist die heute wichtigste Unicode-Kodierung.
Eigenschaften:
- variable Länge: 1 bis 4 Byte pro Zeichen
- ASCII-kompatibel (0–127 bleiben gleich)
- platzsparend für westliche Sprachen
- weltweiter Standard für Web, Dateien, Protokolle
| Unicode-Codepunkt-Bereich | Byte-Länge in UTF-8 | Beispiel |
|---|---|---|
| U+0000 – U+007F | 1 Byte | A → U+0041 |
| U+0080 – U+07FF | 2 Byte | € → U+20AC |
| U+0800 – U+FFFF | 3 Byte | ä → U+00E4 |
| U+10000 – U+10FFFF | 4 Byte | 😊 → U+1F60A |
UTF-16 und UTF-32
| Kodierung | Beschreibung |
|---|---|
| UTF-16 | 2 oder 4 Byte pro Zeichen; häufig in Windows/Java |
| UTF-32 | 4 Byte pro Zeichen; einfacher, aber weniger platzsparend |
Vorteile von Unicode
- unterstützt alle Sprachen (Deutsch, Arabisch, Chinesisch, Emojis usw.)
- einheitlicher Standard weltweit
- löst Probleme älterer Systeme (ASCII, ISO-8859-1)
Kurzmerksatz
Unicode weist jedem Zeichen weltweit einen eindeutigen Codepunkt zu und UTF-8 speichert ihn effizient in Bytes.
