Unicode: Unterschied zwischen den Versionen

Aus FI-Wiki
 
Zeile 20: Zeile 20:
* platzsparend für westliche Sprachen
* platzsparend für westliche Sprachen
* weltweiter Standard für Web, Dateien, Protokolle
* weltweiter Standard für Web, Dateien, Protokolle
{| class="wikitable" style="width:100%; text-align:center;"
! Unicode-Codepunkt-Bereich !! Byte-Länge in UTF-8 !! Beispiel
|-
| U+0000 – U+007F || '''1 Byte''' || A → U+0041
|-
| U+0080 – U+07FF || '''2 Byte''' || € → U+20AC
|-
| U+0800 – U+FFFF || '''3 Byte''' || ä → U+00E4
|-
| U+10000 – U+10FFFF || '''4 Byte''' || 😊 → U+1F60A
|}


=== UTF-16 und UTF-32 ===
=== UTF-16 und UTF-32 ===

Aktuelle Version vom 10. Dezember 2025, 14:38 Uhr

Unicode

Unicode ist ein internationaler Standard zur Darstellung von Schriftzeichen aus nahezu allen Sprachen der Welt. Er ordnet jedem Zeichen einen eindeutigen Codepunkt zu, unabhängig von Sprache, Schrift oder Plattform.

Codepoints

Jedes Zeichen erhält einen eindeutigen Wert (Codepoint) in der Form: U+xxxx Beispiel:

  • A → U+0041
  • € → U+20AC
  • 😊 → U+1F60A

UTF-8

UTF-8 ist die heute wichtigste Unicode-Kodierung.

Eigenschaften:

  • variable Länge: 1 bis 4 Byte pro Zeichen
  • ASCII-kompatibel (0–127 bleiben gleich)
  • platzsparend für westliche Sprachen
  • weltweiter Standard für Web, Dateien, Protokolle
Unicode-Codepunkt-Bereich Byte-Länge in UTF-8 Beispiel
U+0000 – U+007F 1 Byte A → U+0041
U+0080 – U+07FF 2 Byte € → U+20AC
U+0800 – U+FFFF 3 Byte ä → U+00E4
U+10000 – U+10FFFF 4 Byte 😊 → U+1F60A

UTF-16 und UTF-32

Kodierung Beschreibung
UTF-16 2 oder 4 Byte pro Zeichen; häufig in Windows/Java
UTF-32 4 Byte pro Zeichen; einfacher, aber weniger platzsparend

Vorteile von Unicode

  • unterstützt alle Sprachen (Deutsch, Arabisch, Chinesisch, Emojis usw.)
  • einheitlicher Standard weltweit
  • löst Probleme älterer Systeme (ASCII, ISO-8859-1)

Kurzmerksatz

Unicode weist jedem Zeichen weltweit einen eindeutigen Codepunkt zu und UTF-8 speichert ihn effizient in Bytes.