「プログラマのための文字コード技術入門」で勉強中(4)
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
- 作者: 矢野啓介
- 出版社/メーカー: 技術評論社
- 発売日: 2010/02/18
- メディア: 単行本(ソフトカバー)
- 購入: 33人 クリック: 544回
- この商品を含むブログ (121件) を見る
- コード変換
- iconv
- nkf
- 変換出来ない場合
- 変換元のテキストに含まれる文字が、変換先の文字コードに無い場合は変換出来ない
- UTF-8からShift_JISに変換する場合などに起きる
- UnicodeにはJIS X 0208にない文字をたくさん含んでいる
- 変換の原則
- 変換前後でテキストが同じであるなら正しく変換されたとみなせる
- 異なる文字集合体系の間で変換する場合、同じテキストという判断が自明で無いことがある
- コード変換、文字変換
- コード変換: 文字を変換せずにコードだけを変換する
- 文字変換: コードだけでは無く文字も変換してしまう
- アルゴリズム的な変換
- 同一の符号化文字集合を元に定義された符号化方式同士の間で可能
- JIS X 0208の符号化方式の変換
- JIS X 0201とASCIIの違いの問題
- 0x5C, 0x7E
- Unicode の符号化方式の変換
- ruby -e "puts ['C0A1'].pack('H*')"
- テーブルによる変換
- JIS X 0208 と Unicode の間の変換
- 円記号とバックスラッシュ、オーバーラインとチルダ、波ダッシュ
- JIS X 0208とASCII/JIS X 0201の間の変換
- ハイフンマイナス
- JIS X 0201 片仮名集合の場合
- JIS X 0208 と Unicode の間の変換
- 文字コードの自動判別