Registrieren Passwort vergessen?

Universal Character Set

23. Nov 2008, 17:55
Unicode-Logo Unicode
Kodierungen
Techniken

Der Universal Character Set (UCS) ist eine Zeichenkodierung, die im internationalen Standard ISO/IEC 10646 definiert ist. Für alle praktischen Belange ist dies dasselbe wie Unicode.

Er wird von ISO/IEC/JTC1/SC2/WG2 entwickelt.

Ursprünglich wurden diese beiden Formate definiert:

  • UCS-2: Kodierung in 2 Byte; dabei lässt sich nur die Basic Multilingual Plane kodieren. Dies ermöglicht die Codierung aller lebenden Sprachen und der gebräuchlicheren Sonderzeichen. UCS-2 ist auch der Zeichensatz von Microsoft Windows NT, Office 2000 und Microsoft SQL 2000 oder höher, implementiert als UCS-2-LE (Unicode Characterset 2 Bytes Little Endian). In dem Codebereich unter 64K wurde aber ein Privatbereich eingerichtet (Private Use Zone). Aus diesem Privatbereich hat man nun 2-mal 1024 Byte abgezweigt als sogenannte Surrogate: High-half zone und Low-half zone of UTF-16 (siehe Weblinks zu BMP). Nimmt man nun 2 Byte aus der niederen Zone und kombiniert sie mit 2 Byte aus der höheren Zone, so kann man den vollen Zeichencode-Bereich von UTF-16 und UTF-8 abdecken und erreicht damit den als Maximum vereinbarten CodePoint-Bereich von 0 bis 1114111. Microsoft Windows ab Version 2000 unterstützt die Verwendung von Surrogaten (GDI). Damit ist UCS2 zwar nicht dasselbe wie UTF-16, aber es ist "UTF-16 Preserving", d.h., da die CodePoints der Surrogate im Privatbereich liegen, wird der Text 1:1 verarbeitet und erst durch das Graphiksystem (GDI = Graphic Device Interface) zu den richtigen Zeichen umgewandelt.
  • UCS-4: Kodierung in 4 Byte (entspricht UTF-32)

Die Gruppe arbeitet sehr eng mit dem Unicode-Konsortium zusammen, die die Standards ständig in neuen Versionen synchronisieren. Aufgrund dessen sind alle Kodierungen aus Interoperabilitätsgründen auf die für Unicode bedeutungsvollen 1.114.112 (= 220+216) Zeichen (von U+00000 bis U+10FFFF) beschränkt.

In der Version ISO/IEC 10646-3:2003 werden die gleichen Formate UTF-8, UTF-16 und UTF-32 beschrieben wie in Unicode 4.0.

[Bearbeiten] Gegenüberstellung der Versionen

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646-3:2003 ≈ Unicode 4.0
  • ISO/IEC 10646-4:2008 ≈ Unicode 5.1

[Bearbeiten] Weblinks

Dieser Artikel ist eine Kopie aus der freien Enzyklopädie Wikipedia. Am Originalartikel kann jeder Korrekturen und Ergänzungen vornehmen. Zudem kann man frühere Versionen einsehen.
In Kooperation mit Lycos Europe Network