こしごぇ(B)

旧:http://d.hatena.ne.jp/koshigoeb/

「プログラマのための文字コード技術入門」で勉強中(5)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

  • 電子メールと文字コード
    • メールの基本はASCII(7ビットの文字コード)
    • ISO-2022-JP
    • uuencode
    • MIME(Mutipurpose Internet Mail Extensions)
    • character set という言葉が非常に混乱して使われている
      • 大抵は set of characters (文字の集合)を刺しているのでは無い
      • coded character set か character encoding といった意味で使われている
    • テキストを更に符号化する
      • quoted-printable, base64
      • Content-Transfer-Encoding
    • ヘッダの符号化
    • 添付ファイル名の符号化
      • ASCII 以外の文字コードを使う方法は RFC 2231 として定義された
      • B符号化などの使用は RFC 2047 によって明示的に禁じられているが
      • B符号化などを使用するソフトウェアは少なくない
  • Webと文字コード
  • ファイル名の文字コードの変換
    • convmv
    • convmv -r -f euc-jp -t utf8 * --notest