Unicode
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
] [
Twitter
]
開始行:
→文字コード関連
#contents
*一般 [#qcefa080]
-[[ASCII.jp:Windows上でユニコードを「見る」方法>https://...
-[[HTMLの特殊文字の表示方法について教えてください。文字コ...
--[[示部 - Wikipedia>https://ja.wikipedia.org/wiki/%E7%A4...
-[[あなたの知らない(かもしれない)文字コードの世界 TypeScr...
-[[文字コードの罠 - デザインワン・ジャパン Tech Blog>http...
--パピコ問題
-[[文字列の表記揺れをUnicode正規化で簡単に解決する方法 - ...
-[[人間にUnicode正規化は難しい - エムスリーテックブログ>h...
-[[JavaScript における文字コードの初歩 - 30歳からのプログ...
-[[Unicode Utilities: Confusables>https://util.unicode.or...
-[[Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertain...
-[[文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字...
-[[Unicodeの基礎知識とJavaでの扱い>http://gpsoft.dip.jp/h...
-[[戸籍統一文字とUnicode>http://www.taishukan.co.jp/kokug...
-[[それUnicodeで>http://openmya.hacker.jp/hasegawa/public...
-[[Unicodeは文字集合かエンコードか>http://blog.livedoor.j...
*文字コード表 [#gc189a9a]
-[[Unicode(ユニコード)とURLエンコード検索と変換サイト 0g0...
-http://ash.jp/code/
-[[Unicode Character Category helper:http://www.codeproje...
*「〜」のUnicde->ShiftJIS変換問題 [#j0806fa5]
-Windows環境でSJIS<-->Unicode間のコード変換を往復すると「...
-http://blog.livedoor.jp/dankogai/archives/50488765.html
-[[Unicode とユーザ定義文字・ベンダ定義文字に関する問題点...
-@ITでの関連記事
--http://www.atmarkit.co.jp/fjava/rensai3/mojibake02/moji...
--http://www.atmarkit.co.jp/fjava/rensai3/mojibake03/moji...
-同様の問題を起こすコードの一覧表
--http://www.ingrid.org/java/i18n/unicode.html
*Unicodeにしかない文字 [#n383ed4b]
-Shift-JISには定義されておらず、Unicodeにしかない文字(通...
-HTML上では &#xxxxx; のような数値文字参照になっているこ...
-[[Java 17で文字を数える - CLOVER🍀>https://kazuhi...
-[[Python3で数値文字参照をUNICODE文字に変換する方法>https...
print(html.unescape("吴 ほげほげ"))
-[[文字参照とは - 意味をわかりやすく - IT用語辞典 e-Words...
-数値文字参照 (numeric character reference)
--表記したい文字を、Unicode/ISO 10646の文字番号(コードポ...
--HTMLでは「数値文字参照」(numeric character reference)...
-[[PythonでUnicodeコードポイントと文字を相互変換(chr, or...
--PythonでUnicodeコードポイント(文字コード)と文字を相互...
--あるUnicodeコードポイントの文字を取得するにはchr()、あ...
-[[コード一覧:http://homepage2.nifty.com/Gat_Tin/unickigo...
*UCS-2/UCS-4 [#yc983abd]
Unicode(ユニコード)は、ユニコード・コンソーシアムによって...
-UCSは、Universal multiple-octet coded Character Setの略
-UCSには、2バイト(オクテット)で表すUCS-2と、4バイトで表す...
-UCS-4では、4バイトを群(Group)、面(Plane)、区(Row)、点(Ce...
-UCS-4の0群0面を基本多言語面(''BMP'':Basic Multilingual P...
-UCS-2は、BMPの上位の2バイトを省略した文字コードのこと
Unicode(UCS-2)では、A,I,O,Rの4つの領域に分かれる。
日本語のJIS X 0208およびJIS X 0212は、CJK統合漢字として格...
CJK統合漢字とは、中国(China)、日本(Japan)、韓国(Korea)の...
|領域名|文字コード|内容|h
|A領域|00-4D|Alphabet領域のことで、アルファベットなどの表...
|I領域 |4E-9F|Ideograph領域のことで、CJK統合漢字などの表...
|O領域 |A0-DF|Open領域のことで、将来の拡張ための予備領域 ...
|R領域 |E0-FF|Restricted領域のことで、PUAなどの限定使用領...
JavaやXMLは、基本コードとしてUnicodeを採用。今後世の中で...
*UTF-8の変換規則 [#mbfe5cc0]
|変換後パターン|変換前|変換後|h
|1バイトになる場合|0000 0000 0aaa bbbb|0aaa bbbb|
|2バイトになる場合|0000 0aaa bbbb cccc|110a aabb 10bb ccc...
|3バイトになる場合|aaaa bbbb cccc dddd|1110 aaaa 10bb bbc...
*BOM [#pcab8799]
-''Byte Order Mark''の略で、Unicodeファイルのエンコーディ...
-Windows環境では、UTF-8、UTF-16LE, 16BE, 32LE, 32BEのいず...
-BOMなしのUTF-8のことを''UTF-8n''と呼ぶ場合もある。
-ソフトウェアによっては、BOMを別の名称で呼ぶことがある。
--Unicodeサイン(EmEditorでの呼称)
--UTF-8 シグニチャ(Visual Studio .NETでの呼称)
-BOMの具体例
|エンコーディング|BOM|h
|UTF-8|EF BB BF|
|UTF-16LE|FF FE|
|UTF-16BE|FE FF|
-[[UTF-8 の BOM について - 将棋プログラミング>https://yka...
*サロゲート [#g803d06c]
-[[私の名前ってUnicodeでどう表すの?~異体字セレクタとの出...
-[[サロゲートペア入門>http://codezine.jp/a/article/aid/15...
-UTF-16 では、UCS-4 の BMP 以外の文字を参照するために、文...
-Shift_JIS などと違って、それ自体は無意味な文字同士を組み...
-組み合わせの前半に使われる文字は前半にだけ、後半に使われ...
-この、別の文字を表現するために定義されている、それ自体意...
-UCS-4 では、55296〜57343 の文字が「サロゲート」として定...
終了行:
→文字コード関連
#contents
*一般 [#qcefa080]
-[[ASCII.jp:Windows上でユニコードを「見る」方法>https://...
-[[HTMLの特殊文字の表示方法について教えてください。文字コ...
--[[示部 - Wikipedia>https://ja.wikipedia.org/wiki/%E7%A4...
-[[あなたの知らない(かもしれない)文字コードの世界 TypeScr...
-[[文字コードの罠 - デザインワン・ジャパン Tech Blog>http...
--パピコ問題
-[[文字列の表記揺れをUnicode正規化で簡単に解決する方法 - ...
-[[人間にUnicode正規化は難しい - エムスリーテックブログ>h...
-[[JavaScript における文字コードの初歩 - 30歳からのプログ...
-[[Unicode Utilities: Confusables>https://util.unicode.or...
-[[Unicodeで半角全角を扱う Ambiguous(曖昧さ)とUncertain...
-[[文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字...
-[[Unicodeの基礎知識とJavaでの扱い>http://gpsoft.dip.jp/h...
-[[戸籍統一文字とUnicode>http://www.taishukan.co.jp/kokug...
-[[それUnicodeで>http://openmya.hacker.jp/hasegawa/public...
-[[Unicodeは文字集合かエンコードか>http://blog.livedoor.j...
*文字コード表 [#gc189a9a]
-[[Unicode(ユニコード)とURLエンコード検索と変換サイト 0g0...
-http://ash.jp/code/
-[[Unicode Character Category helper:http://www.codeproje...
*「〜」のUnicde->ShiftJIS変換問題 [#j0806fa5]
-Windows環境でSJIS<-->Unicode間のコード変換を往復すると「...
-http://blog.livedoor.jp/dankogai/archives/50488765.html
-[[Unicode とユーザ定義文字・ベンダ定義文字に関する問題点...
-@ITでの関連記事
--http://www.atmarkit.co.jp/fjava/rensai3/mojibake02/moji...
--http://www.atmarkit.co.jp/fjava/rensai3/mojibake03/moji...
-同様の問題を起こすコードの一覧表
--http://www.ingrid.org/java/i18n/unicode.html
*Unicodeにしかない文字 [#n383ed4b]
-Shift-JISには定義されておらず、Unicodeにしかない文字(通...
-HTML上では &#xxxxx; のような数値文字参照になっているこ...
-[[Java 17で文字を数える - CLOVER🍀>https://kazuhi...
-[[Python3で数値文字参照をUNICODE文字に変換する方法>https...
print(html.unescape("吴 ほげほげ"))
-[[文字参照とは - 意味をわかりやすく - IT用語辞典 e-Words...
-数値文字参照 (numeric character reference)
--表記したい文字を、Unicode/ISO 10646の文字番号(コードポ...
--HTMLでは「数値文字参照」(numeric character reference)...
-[[PythonでUnicodeコードポイントと文字を相互変換(chr, or...
--PythonでUnicodeコードポイント(文字コード)と文字を相互...
--あるUnicodeコードポイントの文字を取得するにはchr()、あ...
-[[コード一覧:http://homepage2.nifty.com/Gat_Tin/unickigo...
*UCS-2/UCS-4 [#yc983abd]
Unicode(ユニコード)は、ユニコード・コンソーシアムによって...
-UCSは、Universal multiple-octet coded Character Setの略
-UCSには、2バイト(オクテット)で表すUCS-2と、4バイトで表す...
-UCS-4では、4バイトを群(Group)、面(Plane)、区(Row)、点(Ce...
-UCS-4の0群0面を基本多言語面(''BMP'':Basic Multilingual P...
-UCS-2は、BMPの上位の2バイトを省略した文字コードのこと
Unicode(UCS-2)では、A,I,O,Rの4つの領域に分かれる。
日本語のJIS X 0208およびJIS X 0212は、CJK統合漢字として格...
CJK統合漢字とは、中国(China)、日本(Japan)、韓国(Korea)の...
|領域名|文字コード|内容|h
|A領域|00-4D|Alphabet領域のことで、アルファベットなどの表...
|I領域 |4E-9F|Ideograph領域のことで、CJK統合漢字などの表...
|O領域 |A0-DF|Open領域のことで、将来の拡張ための予備領域 ...
|R領域 |E0-FF|Restricted領域のことで、PUAなどの限定使用領...
JavaやXMLは、基本コードとしてUnicodeを採用。今後世の中で...
*UTF-8の変換規則 [#mbfe5cc0]
|変換後パターン|変換前|変換後|h
|1バイトになる場合|0000 0000 0aaa bbbb|0aaa bbbb|
|2バイトになる場合|0000 0aaa bbbb cccc|110a aabb 10bb ccc...
|3バイトになる場合|aaaa bbbb cccc dddd|1110 aaaa 10bb bbc...
*BOM [#pcab8799]
-''Byte Order Mark''の略で、Unicodeファイルのエンコーディ...
-Windows環境では、UTF-8、UTF-16LE, 16BE, 32LE, 32BEのいず...
-BOMなしのUTF-8のことを''UTF-8n''と呼ぶ場合もある。
-ソフトウェアによっては、BOMを別の名称で呼ぶことがある。
--Unicodeサイン(EmEditorでの呼称)
--UTF-8 シグニチャ(Visual Studio .NETでの呼称)
-BOMの具体例
|エンコーディング|BOM|h
|UTF-8|EF BB BF|
|UTF-16LE|FF FE|
|UTF-16BE|FE FF|
-[[UTF-8 の BOM について - 将棋プログラミング>https://yka...
*サロゲート [#g803d06c]
-[[私の名前ってUnicodeでどう表すの?~異体字セレクタとの出...
-[[サロゲートペア入門>http://codezine.jp/a/article/aid/15...
-UTF-16 では、UCS-4 の BMP 以外の文字を参照するために、文...
-Shift_JIS などと違って、それ自体は無意味な文字同士を組み...
-組み合わせの前半に使われる文字は前半にだけ、後半に使われ...
-この、別の文字を表現するために定義されている、それ自体意...
-UCS-4 では、55296〜57343 の文字が「サロゲート」として定...
ページ名: