CESU-8 (kurz für Compatibility Encoding Scheme for UTF-16: 8-Bit) ist eine Variante von UTF-8, die im Unicode Technical Report #26 beschrieben wird. Der Codepoint wird zunächst in UTF-16 ausgedrückt, dann wird das Ergebnis in UTF-8 rekodiert, als wäre es UCS-2. Das Verfahren ist ähnlich wie das modifizierte UTF-8 von Java, allerdings wird das Zeichen NUL (U+0000) nicht speziell kodiert. Wie beim modifizierten UTF-8 wird CESU-8 in einzelne UTF-16-Wörter dekodiert.
CESU-8-kodierter Text entsteht, wenn ein UCS-2→UTF8-Umwandler (häufig aus der Zeit, in der Unicode nur ein 16-Bit-Zeichensatz war) fehlerhafterweise für die Umwandlung von UTF-16 verwendet wird. Eingeschränkt auf den Bereich der Basic Multilingual Plane (Zeichen bis Nummer 65.535) sind UTF-8 und CESU-8 identisch.
CESU-8 wird von der Oracle-Datenbank-Software verwendet. Der Oracle UTF8-Zeichensatz – mit einem falsch gewählten Namen – der seit Version 8.0 der Datenbank verfügbar ist, entspricht der CESU-8-Kodierung. Der AL32UTF8-Zeichensatz, eingeführt in Version 9.0, entspricht der UTF-8-Kodierung.
Bearbeiten Beispiel
Kodierung
Unicode code point
U+0045
U+0205
U+10400
UTF-8
45
C8
85
F0
90
90
80
UTF-16
0045
0205
D801
DC00
CESU-8
45
C8
85
ED
A0
81
ED
B0
80
Bearbeiten Weblinks
Unicode Technical Report #26
UTR #26: Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)
The Unicode Consortium, does not encourage the use of CESU-8, but does recognize the existence of data in this encoding and supplies this technical ...
Cesu-8
Cesu 8. The Compatibility Encoding Scheme for UTF-16: 8-Bit ( CESU-8 ) ... CESU-8 is not an official part of the Unicode Standard, because Unicode Technical Reports ...
CESU-8 - Wikipédia
Le CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) est un codage de caractères ... Le but principal de CESU-8 est de maintenir la même collation binaire ...
PDUTR #26: Compatibility Encoding Scheme for UTF-16: 8-Bit ...
In CESU-8, supplementary characters are represented as six-byte sequences resulting from ... CESU-8 is useful in 8-bit processing environments where binary ...
CESU-8
Data encoded in CESU-8 should only be exchanged when it is labeled as such in a higher-level protocol or is agreed upon in an API definition. ...
OTN Discussion Forums : UTF-8 vs. UTF-16 vs. CESU-8 ...
According to Unicode.org the CESU-8 encoding scheme for Unicode is identical to UTF-8 except for its representation of supplementary characters, ...
Cesu-8 | Define Cesu-8 at Dictionary.com
Cesu-8 - Define Cesu-8 at Dictionary.com a free online dictionary with pronunciation, synonyms, and translation of Cesu-8. Look it up now!
UTF-8, a transformation format of ISO 10646 [RFC-Ref]
Phipps, T., "Unicode Technical Report #26: Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)", UTR 26, April 2002, <http://www.unicode .org/unicode/reports/tr26 ...
Chittenden East Supervisory Union - Index
7. 8. 9. 10. 11. 12. Upcoming Events. 2/21/2011 - Winter Recess. All Day - CESU Executive ... If you want to learn more about the work of the CESU Voluntary Merger ...
