HTML Wie viele Sonderzeichen kann UTF-8 darstellen?

AlterIWNet

Cadet 2nd Year
Registriert
Dez. 2017
Beiträge
17
Hallo zusammen,

die frage scheint auf den ersten Blick recht banal zu sein.
UTF-8 (8 Bit = 256 Zeichen)

Soweit ich weiß, sind im europäischen Raum alle Sonderzeichen abgedeckt.

Anders sieht es bspw. in Russland aus. In der UTF-8 Tabelle sind keine kyrillischen Zeichen vorhanden.
Also müsste man doch logischerweise auf UTF-16 oder 32 zurückgreifen...?

Wenn ich mir jetzt aber den Source-Code von Mail.ru ansehe, finde ich dort auch nur eine UTF-8 Kodierung.


Wie kann das sein?


Danke & LG
 
UTF-8 ist eine Unicode Kodierung, kann also alle Zeichen im Unicode Standard darstellen.
Dazu ist UTF-8 eine variable Zeichenkodierung, d.h. je nach Zeichen belegt es entweder 8 Bit, 16 Bit, 24 Bit oder 32 Bit.
Also du musst überhaupt nicht auf eine andere Zeichenkodierung wechseln, UTF-8 ist sogar die empfohlenste von allen da sie am meisten Platz spart.
 
UTF-8 deckt den kompletten Unicode ab. Wenn die 8 Bit nicht reichen, werden ein oder mehrere weitere Bytes angehängt. EInfach mal den Wikipedia-Artikel durchlesen.
 
Entgegen deiner Annahme sind bis zu 4 Byte möglich.

UTF-8 unterstützt bis zu 1.048.576 Zeichen
siehe: Wikipedia
 
Zurück
Oben