文字コード関連
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
] [
Twitter
]
開始行:
→データ処理関連
#contents
*サブトピック [#v7077973]
-Shift-JISコード
-JISコード
-[[Unicode]]
*一般 [#ya7ccd43]
-[[文字コードの世界の第一歩 - KAKEHASHI Tech Blog>https:/...
-[[目に見えない文字を悪用してサイトを好き放題荒らされた話...
-[[PythonでUnicodeコードポイントと文字を相互変換(chr, or...
-[[Pythonで学ぶ文字コード - Qiita>https://qiita.com/ny776...
-[[i18n g11n l10n m17n とは何なのかまとめてみた - mabots'...
i18n internationalization 国際化
l10n localization 地域化
m17n multilingalization 多言語化
g11n globalization グローバル化(m17nの別名)
-[[「コピペできない文章」がコピペできなかった理由>http://...
--[[絶対にコピペできない文章を作ったった>http://tech.nito...
-[[改行コードmemo>http://seclan.dll.jp/cccrlf.htm]]
-[[ウェブマスターのための文字化け講座>http://www.shtml.jp...
-[[似た文字同士にご用心>http://blog.livedoor.jp/dankogai/...
--とにかくUnicodeには記号が多い。Glyphを見ただけでは区別...
-[[Vistaの新文字セットが引き起こすトラブル>http://itpro.n...
--Vistaで採用される文字セットJIS X0213:2004(JIS2004)で...
--参考URL:http://d.hatena.ne.jp/kazama/20061124/p1
*文字コードの変換 [#l01bc9c1]
-[[【linux】ファイルの文字コードを変換する。vi、iconv、nk...
-[[WindowsのPowerShellで複数のファイルの文字コードを一括...
-[[バッチファイルでCSVの文字コードを「Shift-JIS→UTF-8」に...
powershell -Command "get-content data1.csv | Set-Content...
または
@echo off
:Shift_JIS -> UTF-8
setlocal enabledelayedexpansion
for %%f in (%*) do (
echo %%~ff| findstr /l /e /i ".txt .csv"
if !ERRORLEVEL! equ 0 (
powershell -nop -c "&{[IO.File]::WriteAllText($args[...
)
)
*文字コードの判定 [#of213843]
-[[【Pythonで文字コード判定】charset-normalizerのインスト...
-真面目に文字コード判定をするのが嫌で、完全ではないがだい...
--JavaなどでSJIS→UTF8変換をしたとき、うまく変換できないデ...
--例えばSJISかUTF8かどちらかであることがわかっている文字...
--次にUTF8へ変換した結果をそのままSJISに変換する。これは...
--最後に最初に変換元にしたSJISのバイト配列とUTF8へ行って...
--ただしこのとき、SJISでもUTF8に行ってこい変換をしたら変...
--言うまでもなく、この方法で100%判定できるわけではない。...
-[[juniversalchardet>http://java.akjava.com/library/juniv...
--http://code.google.com/p/juniversalchardet/
--オープンソースの文字コード判定ライブラリ
-[[UTF8とSHIFT-JISの判別し方>http://info-utakura.blogspot...
--UTF8は以下の5つパターンに収束する。
(1)c2〜df+80〜bf 2バ...
(2)e0〜ef+80〜bf+80〜bf 3バ...
(3)f0〜f7+80〜bf +80〜bf +80〜bf 4バ...
(4)f8〜fb+80〜bf +80〜bf +80〜bf +80〜bf 5バ...
(5)fc〜fd+80〜bf +80〜bf +80〜bf +80〜bf +80〜bf 6バ...
--(3)〜(5)のパターン、すなわち0xf0〜0xfdが出てきたらUTF8...
--(あ)が出てきたらSHIFT-JIS。UTF8では(あ)のコードはい...
--0xa0〜0xc1が出てきたときは、半角カタカナなのでSHIFT-JIS。
--(2)のコードはSHIFT-JISでも存在しうるが、その範囲は第...
--残りは(1)。0xc2〜0xdfは半角カタカナと重複するからここ...
2バイト目が0x80〜0x9fならSHIFT-JISの第1バイトかもしれない...
--ということで、完全自動の文字コード認識は不可能という話。
-[[読み込むファイルがシフトJISかUTF-8かを見分けたい>http:...
ただし、データの内容によっては、ある程度判断できる場合も...
いくつか例を挙げてみると……
(1)先頭3バイトが &HEF, &HBB, &HBF の並びであった場合
→ UTF-8 です。(BOM付き)
(2)すべてのバイトが、&H80 未満の値で構成されていた場合
→ Shift_JIS / UTF-8 のいずれとしてみた場合も、同じ文字...
(3)「&H00〜&H7Fのいずれか」の1バイト後に、「&H80〜&HBFの...
→ Shift_JIS です。
(4)「&HC0〜&HDFのいずれか」の1バイト後に、「&H80〜&HBF以...
→ Shift_JIS です。
(5)「&HC0〜&HDFのいずれか」の2バイト後に、「&H80〜&HBFの...
→ Shift_JIS です。
(6)「&HE0〜&HEFのいずれか」の1〜2バイト後に、「&H80〜&HB...
→ Shift_JIS です。
(7)「&HE0〜&HEFのいずれか」の3バイト後に、「&H80〜&HBF以...
→ Shift_JIS です。
*ASCIIコード [#cbea6e72]
http://www.blue.b-city.net/~gg99486/asciicode.html
*EBCDIC(EBCDIK) [#ve76d657]
-Extended Binary Coded Decimal Interchange Code の略。
-汎用機で使われていることが多い。
-なぜか日立だけEBCDI''K''と呼ぶらしい。理由は知らない。
*マルチバイトコード [#ne52ec4a]
-[[ASCII/Multibyte to Unicode conversion>http://www.codep...
-JISコード
-Shift-JISコード
-EUC((Extended UNIX Codeの略))
-Unicode
--UTF-16
--UTF-8
-KEISコード
**EUCの変換規則 [#yf2e6b69]
|文字種|規則|長さ|h
|ANK((Alphabet Numeric Kanaの略))|そのまま|1バイト|
|JIS基本漢字|MSB((Most Significant Bitの略))を反転|2バイ...
|半角カタカナ|0x8E+該当コード|2バイト|
|JIS補助漢字|0x8F+MSB反転|3バイト|
*各コードの詳細 [#m86b5c21]
-JISコード
-Shift-JISコード
-[[Unicode]]
*ツール [#hdd39ecf]
-[[UTF-8対応nkf:http://www01.tcp-ip.or.jp/~furukawa/nkf_u...
*参考リンク [#y86470d0]
-[[HTML文字実体参照&数値文字参照一覧>https://mirai-net.j...
-[[日本語と英語でよく使う約物の種類と名称>http://coliss.c...
--参考:http://blog.livedoor.jp/dankogai/archives/5083722...
-[[文字コード表リンク集:http://www2.famille.ne.jp/~akio19...
-[[Windows CodePage情報:http://suika.fam.cx/~wakaba/-temp...
終了行:
→データ処理関連
#contents
*サブトピック [#v7077973]
-Shift-JISコード
-JISコード
-[[Unicode]]
*一般 [#ya7ccd43]
-[[文字コードの世界の第一歩 - KAKEHASHI Tech Blog>https:/...
-[[目に見えない文字を悪用してサイトを好き放題荒らされた話...
-[[PythonでUnicodeコードポイントと文字を相互変換(chr, or...
-[[Pythonで学ぶ文字コード - Qiita>https://qiita.com/ny776...
-[[i18n g11n l10n m17n とは何なのかまとめてみた - mabots'...
i18n internationalization 国際化
l10n localization 地域化
m17n multilingalization 多言語化
g11n globalization グローバル化(m17nの別名)
-[[「コピペできない文章」がコピペできなかった理由>http://...
--[[絶対にコピペできない文章を作ったった>http://tech.nito...
-[[改行コードmemo>http://seclan.dll.jp/cccrlf.htm]]
-[[ウェブマスターのための文字化け講座>http://www.shtml.jp...
-[[似た文字同士にご用心>http://blog.livedoor.jp/dankogai/...
--とにかくUnicodeには記号が多い。Glyphを見ただけでは区別...
-[[Vistaの新文字セットが引き起こすトラブル>http://itpro.n...
--Vistaで採用される文字セットJIS X0213:2004(JIS2004)で...
--参考URL:http://d.hatena.ne.jp/kazama/20061124/p1
*文字コードの変換 [#l01bc9c1]
-[[【linux】ファイルの文字コードを変換する。vi、iconv、nk...
-[[WindowsのPowerShellで複数のファイルの文字コードを一括...
-[[バッチファイルでCSVの文字コードを「Shift-JIS→UTF-8」に...
powershell -Command "get-content data1.csv | Set-Content...
または
@echo off
:Shift_JIS -> UTF-8
setlocal enabledelayedexpansion
for %%f in (%*) do (
echo %%~ff| findstr /l /e /i ".txt .csv"
if !ERRORLEVEL! equ 0 (
powershell -nop -c "&{[IO.File]::WriteAllText($args[...
)
)
*文字コードの判定 [#of213843]
-[[【Pythonで文字コード判定】charset-normalizerのインスト...
-真面目に文字コード判定をするのが嫌で、完全ではないがだい...
--JavaなどでSJIS→UTF8変換をしたとき、うまく変換できないデ...
--例えばSJISかUTF8かどちらかであることがわかっている文字...
--次にUTF8へ変換した結果をそのままSJISに変換する。これは...
--最後に最初に変換元にしたSJISのバイト配列とUTF8へ行って...
--ただしこのとき、SJISでもUTF8に行ってこい変換をしたら変...
--言うまでもなく、この方法で100%判定できるわけではない。...
-[[juniversalchardet>http://java.akjava.com/library/juniv...
--http://code.google.com/p/juniversalchardet/
--オープンソースの文字コード判定ライブラリ
-[[UTF8とSHIFT-JISの判別し方>http://info-utakura.blogspot...
--UTF8は以下の5つパターンに収束する。
(1)c2〜df+80〜bf 2バ...
(2)e0〜ef+80〜bf+80〜bf 3バ...
(3)f0〜f7+80〜bf +80〜bf +80〜bf 4バ...
(4)f8〜fb+80〜bf +80〜bf +80〜bf +80〜bf 5バ...
(5)fc〜fd+80〜bf +80〜bf +80〜bf +80〜bf +80〜bf 6バ...
--(3)〜(5)のパターン、すなわち0xf0〜0xfdが出てきたらUTF8...
--(あ)が出てきたらSHIFT-JIS。UTF8では(あ)のコードはい...
--0xa0〜0xc1が出てきたときは、半角カタカナなのでSHIFT-JIS。
--(2)のコードはSHIFT-JISでも存在しうるが、その範囲は第...
--残りは(1)。0xc2〜0xdfは半角カタカナと重複するからここ...
2バイト目が0x80〜0x9fならSHIFT-JISの第1バイトかもしれない...
--ということで、完全自動の文字コード認識は不可能という話。
-[[読み込むファイルがシフトJISかUTF-8かを見分けたい>http:...
ただし、データの内容によっては、ある程度判断できる場合も...
いくつか例を挙げてみると……
(1)先頭3バイトが &HEF, &HBB, &HBF の並びであった場合
→ UTF-8 です。(BOM付き)
(2)すべてのバイトが、&H80 未満の値で構成されていた場合
→ Shift_JIS / UTF-8 のいずれとしてみた場合も、同じ文字...
(3)「&H00〜&H7Fのいずれか」の1バイト後に、「&H80〜&HBFの...
→ Shift_JIS です。
(4)「&HC0〜&HDFのいずれか」の1バイト後に、「&H80〜&HBF以...
→ Shift_JIS です。
(5)「&HC0〜&HDFのいずれか」の2バイト後に、「&H80〜&HBFの...
→ Shift_JIS です。
(6)「&HE0〜&HEFのいずれか」の1〜2バイト後に、「&H80〜&HB...
→ Shift_JIS です。
(7)「&HE0〜&HEFのいずれか」の3バイト後に、「&H80〜&HBF以...
→ Shift_JIS です。
*ASCIIコード [#cbea6e72]
http://www.blue.b-city.net/~gg99486/asciicode.html
*EBCDIC(EBCDIK) [#ve76d657]
-Extended Binary Coded Decimal Interchange Code の略。
-汎用機で使われていることが多い。
-なぜか日立だけEBCDI''K''と呼ぶらしい。理由は知らない。
*マルチバイトコード [#ne52ec4a]
-[[ASCII/Multibyte to Unicode conversion>http://www.codep...
-JISコード
-Shift-JISコード
-EUC((Extended UNIX Codeの略))
-Unicode
--UTF-16
--UTF-8
-KEISコード
**EUCの変換規則 [#yf2e6b69]
|文字種|規則|長さ|h
|ANK((Alphabet Numeric Kanaの略))|そのまま|1バイト|
|JIS基本漢字|MSB((Most Significant Bitの略))を反転|2バイ...
|半角カタカナ|0x8E+該当コード|2バイト|
|JIS補助漢字|0x8F+MSB反転|3バイト|
*各コードの詳細 [#m86b5c21]
-JISコード
-Shift-JISコード
-[[Unicode]]
*ツール [#hdd39ecf]
-[[UTF-8対応nkf:http://www01.tcp-ip.or.jp/~furukawa/nkf_u...
*参考リンク [#y86470d0]
-[[HTML文字実体参照&数値文字参照一覧>https://mirai-net.j...
-[[日本語と英語でよく使う約物の種類と名称>http://coliss.c...
--参考:http://blog.livedoor.jp/dankogai/archives/5083722...
-[[文字コード表リンク集:http://www2.famille.ne.jp/~akio19...
-[[Windows CodePage情報:http://suika.fam.cx/~wakaba/-temp...
ページ名: