文字コード関連

一般

文字コード表

「〜」のUnicde->ShiftJIS変換問題

Unicodeにしかない文字

UCS-2/UCS-4

Unicode(ユニコード)は、ユニコード・コンソーシアムによって制定された文字コードである。文字を2バイト、または4バイトで表し、世界中の文字を表現しようとするもの。Unicodeは、ISO 10646の中で、UCS-2(BMP)として採用されている

Unicode(UCS-2)では、A,I,O,Rの4つの領域に分かれる。 日本語のJIS X 0208およびJIS X 0212は、CJK統合漢字として格納されている。 CJK統合漢字とは、中国(China)、日本(Japan)、韓国(Korea)の似ている漢字を同じ文字コードに割り当てたもの。

領域名文字コード内容
A領域00-4DAlphabet領域のことで、アルファベットなどの表意文字を格納する領域
I領域4E-9FIdeograph領域のことで、CJK統合漢字などの表意文字を格納する領域
O領域A0-DFOpen領域のことで、将来の拡張ための予備領域 0xD7-0xDFは、サロゲート領域で、UCS-4の1面から16面の拡張用
R領域E0-FFRestricted領域のことで、PUAなどの限定使用領域。PUAとは、Private Use Areaの略で、外字などを格納する領域のこと

JavaやXMLは、基本コードとしてUnicodeを採用。今後世の中では、Unicode化が進んでいく予定。

UTF-8の変換規則

変換後パターン変換前変換後
1バイトになる場合0000 0000 0aaa bbbb0aaa bbbb
2バイトになる場合0000 0aaa bbbb cccc110a aabb 10bb cccc
3バイトになる場合aaaa bbbb cccc dddd1110 aaaa 10bb bbcc 10cc dddd

BOM

サロゲート


トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-04-09 (火) 10:09:41