[B! 文字コード][encode] rin51のブックマーク

rin51 id:rin51

文字コードとencodeに関するrin51のブックマーク (2)

Rubyのエンコーディングその2 - tmtms のメモ
この前「Rubyのエンコーディング」という記事を書いたのですが、それをネタに 8/25 の NSEG で発表しました。 Rubyのエンコーディング from Masahiro Tomita この中で、エンコーディングが原因で予期しないところで落ちてしまうことが結構あるという話もしたんですが、今回はプログラムが落ちないようにするにはどうすればいいかを考えてみます。エンコーディングが原因で落ちてしまうのは大体次のパターンのようです。文字列や正規表現のエンコーディングが異なる文字列中に不正な文字が含まれている文字列や正規表現のエンコーディングが異なる正規表現をリテラルで生成していれば、エンコーディングは敢えて指定しない限りは普通はスクリプトエンコーディングになってると思うので、問題は文字列の方です。特にファイルから読み込んだ文字列のエンコーディングが何になっているかに注意しましょう。
rin51 2013/04/19
ruby

文字コード

encoding

encode

charset
リンク
Rubyのエンコーディング - tmtms のメモ
Ruby 1.9 から文字列や正規表現オブジェクトはそれぞれエンコーディング(いわゆる文字コード)を保持するようになりました。たとえば 0xB1 0xB2 という２バイトは EUC-JP エンコーディングでは「渦」、SHIFT_JIS エンコーディングでは「ｱｲ」という文字になります。つまり同じバイト列でもエンコーディングが異なれば異なる文字として解釈されます。 1.8 では文字列はただのバイト列でした。なので、それがどのような文字を表しているのか、つまりエンコーディングが何なのかはプログラムが知っている必要がありました。 1.9 では文字列オブジェクト自身が自分が何のエンコーディングかを知っています。同じ 0xB1 0xB2 というバイト列でも、それが EUC-JP の「渦」なのか SHIFT_JIS の「ｱｲ」なのかは、文字列自身が知っています。スクリプトエンコーディングスクリプ
rin51 2013/04/19
ruby

文字コード

encoding

encode

charset
リンク
1