UTF-8 (Abk. für 8-bit UCS Transformation Format) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten an dem Plan 9-Betriebssystem festgelegt. Die Kodierung wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet, in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.[1] Inhaltsverzeichnis 1 Allgemeines 2 Normung 3 Kodierung 4 Byte Order Mark 5 Quellen 6 Weblinks Bearbeiten Allgemeines Bei der UTF-8 Kodierung wird jedem Unicode-Zeichen eine speziell kodierte Bytekette variabler Länge zugeordnet. UTF-8 unterstützt bis zu vier Byte, auf die sich wie bei allen UTF-Formaten alle Unicode-Zeichen abbilden lassen. UTF-8 hat eine zentrale Bedeutung als globale Zeichenkodierung im Internet. Die Internet Engineering Task Force verlangt von allen neuen Internetkommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstützten Kodierungen ist. Das Internet Mail Consortium (IMC) empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können.[2] 2008 wurde diese Empfehlung allerdings immer noch nicht global befolgt. Auch bei dem in Webbrowsern verwendeten HTML setzt sich UTF-8 zur Darstellung sprachspezifischer Zeichen zunehmend durch und ersetzt die vorher benutzten HTML-Entities[3]. Bearbeiten Normung UTF-8 ist von der IETF, dem Unicode Consortium und der ISO gegenwärtig identisch definiert in den Normdokumenten: RFC 3629 / STD 63 (2003) The Unicode Standard, Version 4.0, §3.9–§3.10 (2003) ISO/IEC 10646-1:2000 Annex D (2000) Diese lösen ältere, teilweise abweichende Definitionen ab, die teilweise noch von älterer Software benutzt werden: ISO/IEC 10646-1:1993 Amendment 2 / Annex R (1996) The Unicode Standard, Version 2.0, Appendix A (1996) RFC 2044 (1996) RFC 2279 (1998) The Unicode Standard, Version 3.0, §2.3 (2000) und Corrigendum #1: UTF-8 Shortest Form (2000) Unicode Standard Annex #27: Unicode 3.1 (2001) Bearbeiten Kodierung Unicode-Zeichen mit den Werten aus dem Bereich von 0 bis 127 (0 bis 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben. Insofern sind alle Daten, für die ausschließlich echte ASCII-Zeichen verwendet werden, in beiden Darstellungen identisch. Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier kodiert. Unicode-Bereich (hexadezimal) UTF-8-Kodierung (binär) Bemerkungen Möglichkeiten (theoretisch) 0000 0000 – 0000 007F 0xxxxxxx In diesem Bereich (128 Zeichen) entspricht UTF-8 genau dem ASCII-Code: Das höchste Bit ist 0, die restliche 7-Bit-Kombination ist das ASCII-Zeichen. 27 128 0000 0080 – 0000 07FF 110xxxxx 10xxxxxx Das erste Byte enthält binär 11xxxxxx, die folgenden Bytes 10xxxxxx; die x stehen für die fortlaufende Bitkombination des Unicode-Zeichens. Die Anzahl der Einsen vor der höchsten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen. (In Klammern jeweils die theoretisch maximal möglichen.) 211 − 27 (211) 1920 (2048) 0000 0800 – 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 216 − 211 (216) 63.488 (65.536) 0001 0000 – 0010 FFFF [0001 0000 – 001F FFFF] 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 220 (221) 1.048.576 (2.097.152) Der Algorithmus lässt theoretisch bis zu acht Bytes lange Byteketten und dadurch über vier Billionen Zeichen zu (Die letzte Stufe enthielte als erstes Byte 11111111 und danach sieben Folge-Bytes. Die gesamte Codefolge wäre dann 242 = 4.398.046.511.104 Zeichen). In seiner Verwendung als UTF-Kodierung ist er aber auf den gemeinsamen Coderaum aller Unicode-Kodierungen beschränkt, also von 0 bis 0010 FFFF (1.114.112 Möglichkeiten) und weist maximal vier Bytes lange Byteketten auf. Das erste Byte eines UTF-8-kodierten Zeichens nennt man dabei Start-Byte, weitere Bytes nennt man Folge-Bytes. Start-Bytes enthalten also die Bitfolge 0xxxxxxx oder 11xxxxxx, Folge-Bytes immer die Bitfolge 10xxxxxx. Ist das höchste Bit des ersten Bytes 0, handelt es sich um ein ASCII-Zeichen, da ASCII eine 7-Bit-Kodierung ist und die ersten 128 Unicode-Zeichen den ASCII-Zeichen entsprechen. Damit sind alle ASCII-Zeichenketten automatisch aufwärtskompatibel zu UTF-8. Ist das höchste Bit des ersten Bytes 1, handelt es sich um ein Mehrbytezeichen, also ein Unicode-Zeichen mit einer Zeichennummer größer als 127. Sind die höchsten beiden Bits des ersten Bytes 11, handelt es sich um das Startbyte eines Mehrbytezeichens, sind sie 10, um ein Folgebyte. Die lexikalische Ordnung nach Bytewerten entspricht der lexikalischen Ordnung nach Zeichennummern, da höhere Zeichennummern mit entsprechend mehr 1-Bits im Start-Byte kodiert werden. Bei den Startbytes von Mehrbyte-Zeichen gibt die Anzahl der höchsten 1-Bits die gesamte Bytezahl des als Mehrbyte-Zeichen kodierten Unicode-Zeichens an. Anders interpretiert, die Anzahl der 1-Bits links des höchsten 0-Bits entspricht der Anzahl an Folgebytes plus eins, z. B. 1110xxxx 10xxxxxx 10xxxxxx = drei Bits vor dem höchsten 0-Bit = drei Bytes insgesamt, zwei Bits nach dem höchsten 1-Bit vor dem höchsten 0-Bit = zwei Folgebytes. Startbytes (0xxx xxxx oder 11xx xxxx) und Folgebytes (10xx xxxx) lassen sich eindeutig voneinander unterscheiden. Somit kann ein Bytestrom auch in der Mitte gelesen werden, ohne dass es Probleme mit der Dekodierung gibt, was insbesondere bei der Wiederherstellung defekter Daten wichtig ist. 10xxxxxx Bytes werden einfach übersprungen, bis ein 0xxxxxxx oder 11xxxxxx Byte gefunden wird. Könnten Startbytes und Folgebytes nicht eindeutig voneinander unterschieden werden, wäre das Lesen eines UTF-8-Datenstroms, dessen Beginn unbekannt ist, unter Umständen nicht möglich. Zu beachten: Das gleiche Zeichen kann theoretisch auf verschiedene Weise kodiert werden (Zum Beispiel „a“ als 01100001 oder fälschlich als 11000001 10100001). Jedoch ist nur die jeweils kürzestmögliche Kodierung erlaubt. Dieser Umstand hat mehrfach zu Problemen geführt, indem Programme bei ungültigen Kodierungen abstürzen, diese als gültig interpretieren oder einfach ignorieren. Die Kombinationen der letzten beiden Verhaltensweisen führte z. B. zu Firewalls, die gefährliche Inhalte auf Grund der ungültigen Kodierung nicht erkennen, der zu schützende Client diese Kodierungen jedoch als gültig interpretiert und dadurch gefährdet ist. Bei mehreren Bytes für ein Zeichen werden die Bits bündig angeordnet – das niedrigste Bit (least significant bit) des Unicode-Zeichens steht also immer im niedrigsten Bit des letzten UTF-8-Bytes. Ursprünglich gab es auch Kodierungen mit mehr als vier Oktetten (bis zu sechs), diese sind jedoch ausgeschlossen worden, da es in Unicode keine korrespondierenden Zeichen gibt und ISO 10646 in seinem möglichen Zeichenumfang an Unicode angeglichen wurde. Für alle auf dem lateinischen Alphabet basierenden Schriften ist UTF-8 eine besonders platzsparende Methode zur Abbildung von Unicode-Zeichen. Die Unicodebereiche U+D800–U+DBFF und U+DC00–U+DFFF sind ausdrücklich keine Zeichen, sondern dienen nur in UTF-16 zur Kodierung von Zeichen außerhalb der Basic Multilingual Plane, sie wurden früher als Low und High surrogates bezeichnet. Folglich sind Bytefolgen, die diesen Bereichen entsprechen, kein gültiges UTF-8. Zum Beispiel wird U+10400 in UTF-16 als D801,DC00 dargestellt, sollte in UTF-8 aber als F0,90,90,80 und nicht als ED,A0,81,ED,B0,80 ausgedrückt werden. Java unterstützt dies seit der Version 1.5.[4] Aufgrund der weiten Verbreitung der falschen Kodierung, insbesondere auch in Datenbanken, wurde diese Kodierung nachträglich als CESU-8 normiert. In UTF-8, UTF-16 und UTF-32 ist der gesamte Wertebereich von Unicode kodiert. Durch die Kodierungsregel von UTF-8 sind bestimmte Bytes nicht zulässig. In nachfolgender Tabelle sind alle 256 Möglichkeiten zusammengefasst und deren Verwendung bzw. Gültigkeit angegeben. Bytes in roten Zeilen sind unzulässig, grün beschreibt zulässige Bytes, welche unmittelbar ein Zeichen darstellen. In blau sind jene Werte hinterlegt, welche den Start einer Sequenz von zwei oder mehr Byte beginnen und als Sequenz mit den Bytes aus orange hinterlegten Zeilen fortgesetzt werden. UTF-8 Wertebereich Bedeutung Binär Hexadezimal Dezimal 00000000-01111111 00-7F 0-127 Ein-Byte lange Zeichen, deckungsgleich mit US-ASCII. 10000000-10111111 80-BF 128-191 Zweites, drittes oder viertes Byte einer Bytesequenz. 11000000-11000001 C0-C1 192-193 Start einer 2 Byte langen Sequenz, welche den Codebereich aus 0 bis 127 abbildet, unzulässig 11000010-11011111 C2-DF 194-223 Start einer 2 Byte langen Sequenz 11100000-11101111 E0-EF 224-239 Start einer 3 Byte langen Sequenz 11110000-11110100 F0-F4 240-244 Start einer 4 Byte langen Sequenz (Inklusive den Codebereich von 110000 bis 13FFFF) 11110101-11110111 F5-F7 245-247 Beschränkt von der RFC 3629: Start einer 4 Byte langen Sequenz für Codebereich über 140000 11111000-11111011 F8-FB 248-251 Beschränkt von der RFC 3629: Start einer 5 Byte langen Sequenz 11111100-11111101 FC-FD 252-253 Beschränkt von der RFC 3629: Start einer 6 Byte langen Sequenz 11111110-11111111 FE-FF 254-255 Ungültig. In der ursprünglichen UTF-8-Spezifikation nicht definiert. In folgender Tabelle sind einige Kodierungsbeispiele für UTF-8 angegeben: Beispiele für UTF-8 Kodierungen Zeichen Unicode Unicode binär UTF-8 binär UTF-8 hexadezimal Buchstabe y U+0079 00000000 01111001 01111001 0x79 Buchstabe ä U+00E4 00000000 11100100 11000011 10100100 0xC3 0xA4 Zeichen für eingetragene Marke ® U+00AE 00000000 10101110 11000010 10101110 0xC2 0xAE Eurozeichen € U+20AC 00100000 10101100 11100010 10000010 10101100 0xE2 0x82 0xAC Violinschlüssel 𝄞 U+1D11E 00000001 11010001 00011110 11110000 10011101 10000100 10011110 0xF0 0x9D 0x84 0x9E Das letzte Beispiel liegt außerhalb des ursprünglich in Unicode (unter Version 2.0) enthaltenen Codebereiches (16 Bit), der in der aktuellen Unicode-Version als BMP-Bereich (Ebene 0) enthalten ist. Da derzeit viele Schriftarten diese neuen Unicode-Bereiche noch nicht enthalten, können die dort enthaltenen Zeichen auf vielen Plattformen nicht korrekt dargestellt werden. Stattdessen wird ein Ersatzzeichen dargestellt, welches als Platzhalter dient. Bearbeiten Byte Order Mark Obwohl bei UTF-8 aufgrund der Art der Kodierung grundsätzlich nicht das Problem unterschiedlicher Bytereihenfolgen auftreten kann, fügen einige Programme eine Byte Order Mark (BOM, dt. „Bytereihenfolge-Markierung“) am Dateianfang von UTF-8-Dateien ein. Die BOM besteht aus der Bytesequenz EF BB BF, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichenfolge  erscheint und für Kompatibilitätsprobleme verantwortlich sein kann. Bearbeiten Quellen ↑ RFC 3629, Kapitel 1 (Introduction), engl. ↑ Using International Characters in Internet Mail ↑ Usage of character encodings for websites ↑ Supplementary Characters in the Java Platform Bearbeiten Weblinks  Wiktionary: UTF-8 – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen RFC 3629 – UTF-8, a transformation format of ISO 10646 (englisch) UTF-8 and Unicode FAQ for Unix/Linux (Häufige Fragen zu UTF-8 und Unicode für Unix/Linux) (englisch) Anmerkungen zur Geschichte des UTF-8 Ein UTF-8-Beispiel Eine Unicode-Datenbank mit Kommentaren und Erklärungen (deutsch/englisch) mit 98.844 Abbildungen aller Unicode-Zeichen Unicode-Datenbank in HTML UTF-8-Check mit PHP UTF-8-Codetabelle mit Unicode-Zeichen – UTF-8-Kodierung aller Unicode-Positionen aus der BMP mit Zusatzinformationen und benannten HTML-Entitäten JavaScript zur Kodierung von Zeichenfolgen in 7-Bit-ASCII, Unicode und UTF-8


UConn Announces Tonight's Game With Syracuse Is On

Just released by UConn: 1 utf-8 0 false false false EN-US X-NONE X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-qformat:yes; mso-style-parent:""; mso-padding-alt:0in 5.4pt 0in 5.4pt; mso-para-margin:0in; mso-para-margin-bottom:.0001pt; mso-pagination ...

znaku Tomisaw podesa mi font batang ttc o wielkoci 16 MB ale jak wida wszystkich znakw nie zawiera Zawiera natomiast znaki chiskie i koreaskie co mona zobaczy na tym obrazku na przykadzie tego wielojzycznego tekstu o jedzeniu szka
http://www.exec.pl/wydarzenie.jsp?nid=2024&Papyrus_-_pakiet_biurowy_dla_Amigi

UTF-8 and Unicode Standards

UTF-8 encodes each Unicode character as a variable number of 1 to 4 octets, where the number of octets depends on the integer value assigned to the Unicode character. ...



Baha'i News: Grave concern for safety of Iran's imprisoned Baha'i leaders (=?utf-8?B?QmFoY Baha'i News:)

Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org Grave concern for safety of Iran's imprisoned Baha'i leaders NEW YORK, 15 February 2011 (BWNS) – Iran's seven imprisoned Baha'i leaders have been transferred to more brutal sections of their prison complex.


http://gran-turismo.co.kr/bbs/zboard.php?id=community&no=1960

UTF-8 and Unicode FAQ

All you need to know to use Unicode/UTF-8 on Unix and Linux systems.



Project Management Software supports email integration.

Intended for busy companies that need concurrent user project management system, RationalPlan v3.21 adds server module that enables concurrent access to central project data repository. Users can launch Multi Project product directly from browser while using Project Server. Project status, project information, and working calendar reports can be generated as PDF files. In addition, program ...


http://gran-turismo.co.kr/bbs/zboard.php?id=community&page=1&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=desc&no=1960

UTF-8: Information from Answers.com

UTF-8 ( U nicode T ransformation F ormat -8 ) A format in the Unicode coding system that uses from one to four bytes



WCC NEWS: WCC general secretary: “one in faith and action” (WCC media =?utf-8?Q?WCC)

World Council of Churches - News WE ARE CALLED TO BE ONE IN FAITH AND ACTION, REPORTS WCC GENERAL SECRETARY For immediate release: 16 February 2011 “There is no theological reflection that does not take place in God’s vulnerable world and in the midst of the joy and suffering of ordinary people,” said the Rev. Dr Olav Fykse Tveit in his report to the first meeting of the World Council of ...


http://gran-turismo.co.kr/bbs/zboard.php?id=community&page=1&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=desc&no=1960

FAQ - UTF-8, UTF-16, UTF-32 & BOM

For example, in UTF-8 every byte of the form 110xxxxx2 must be followed with a byte of the form 10xxxxxx2. ... a) Use UTF-8. This preserves ASCII, but not Latin-1, because the ...



WCC NEWS: Central Committee discusses world Christianity’s changing context (WCC media =?utf-8?Q?WCC)

World Council of Churches - News CENTRAL COMMITTEE DISCUSSES WORLD CHRISTIANITY’S CHANGING CONTEXT For immediate release: 17 February 2011 As the World Council of Churches (WCC) take new steps to promote Christian unity and inter-religious harmony, will the challenges of organizational governance and re-structuring drain “the life out of the ecumenical movement”?


http://hyunam.hanbat.ac.kr/~jhyoon/inter1-5.htm

UTF-8 - Wikipedia, la enciclopedia libre

UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. ... UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. ...



RationalPlan project management updated to 3.21

Despite being numbered like a minor bugfix release, the new version of RationalPlan, v3.21, makes a number of important changes and improvements, including better reporting capabilities, direct browser management of projects (using RationalPlan Project Server), more undo and re-do actions, improved Microsoft Project integration, the addition of a Dutch localization and more....

Edit >Preferences >Appearance >Fonts
http://uliks.sourceforge.net/nase_pismo/mozilla-cirilica/mozilla-cir.html

RFC 3629

A direct consequence is that a plain ASCII string is also a valid UTF-8 string. ... o UTF-8 strings can be fairly reliably recognized as such by a simple algorithm, ...



Walmart start date ‘vague’ as city panel nears final vote

larger view UPDATE: Commission approved Walmart project; opponents vow to continue fight If the Tehachapi Planning Commission gives the go-ahead for the construction of a Walmart Supercenter at the public hearing Jan. 31, there's no telling when the retail giant will start to move dirt. “The start date is vague,” said Tehachapi Community Development Director David James. Wal-Mart Stores, Inc ...


http://samgong.hs.kr/view.php?id=sam21&p=7&keyfield=&keyword=&no=32

Utf-8

Utf-8 on WN Network delivers the latest Videos and Editable pages for News & Events, including Entertainment, Music, Sports, Science and more, Sign ...



How to protect Windows from the new MHTML zero-day hole

Turning off the MHTML protocol will offer protection and break little, Microsoft advises On Friday, Microsoft warned of a new zero-day bug affecting all versions of Windows that could allow remote code execution if users clicked on malicious links. It also released some guidance on how to determine if your Windows machines are vulnerable and how to turn off MHTML, the offending protocol that ...


http://www.condak.cz/jeronym08/cs/07.html

Utf 8

For these and other reasons, UTF-8 has become the dominant character encoding for the World-Wide Web, accounting for more than half of all Web pages. ...



Bicycle tires – puncturing the myths

Wheel Energy are taking the mystery out of tire testing and development

1
http://www.kkachibal.co.kr/bbs/zboard.php?id=gallery_kws

UTF-8

UTF-8 (8-조금 UCS/Unicode 전이 체재) a는 이다 variable-length 특성 암호화 를 위해 ... 그것은 Unicode 기준에 있는 어떤 특성든지 대표할 수 있다, 그러나 UTF-8를 위한 바이트 부호 그리고 특성 지정의 처음 암호화는 이다 뒤에 양립한 ASCII. ...




http://gran-turismo.co.kr/bbs/zboard.php?id=community&page=1&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=hit&desc=desc&no=1960