タグ

utf8に関するfn7のブックマーク (4)

  • perlunitut 和訳 - Perl Unicode Tutorial

    CPAN にあった Perl の Unicode Tutorial を和訳したものです。 ところどころ意訳であったり原文にない表現があったりします。 わかりづらい部分がありましたら原文を参照してください。 DESCRIPTION 「文字」 というものを無視していた状況は過去のものとなりました。 これまで 「日語」 や 「アクセントつきの文字」、「ユーロ記号のようなもの」 はバイトの組み合わせで表現されていましたが、これからは 「バイト列」 ではなく 「文字列」 として扱う必要がある、という事実が認められました。 つまり、プログラマは新たな習慣を身に着けなければなりません。 Unicode を扱えるソフトウェアをプログラミングするのは簡単ですが、正しくプログラムを書くためには鍛錬が必要です。 文字集合 (character sets) と文字符号化 (text encodings) につい

    fn7
    fn7 2008/05/31
    基本のところ
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • Unicode と UTF

    Unicode ってなに? 「よーするに Unicode ってなんなのさ!」ということでいろいろ調べてみたものをまとめてみました。で、頑張って調べてはみたのですが調べれば調べるほどイモヅル式に新しい情報が出てきてまとめきりませんでした。なので少々不完全です。いちおう「Unicode ってどんなものなのかな~」ってことが分かってもらえればと思います。 このコーナーでは、「45」のように二桁で区切られた文字を16進で表された1バイトの表現として扱います。このコーナーではこのような表現もビット列と呼ぶことにします。例えば「F0」という16進のバイト表現があれば「11110000」のようなビット列を思い浮かべてください。 コンピュータと文字 コンピュータが扱えるデータはそもそも「0」と「1」の2進数です。2進数は頑張れば10進数とか16進数とかになるので数値は使えます。ですが来、文字は扱え

    fn7
    fn7 2007/04/10
    ややこしーーーーー
  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
  • 1