タグ

unicodeに関するsh19910711のブックマーク (6)

  • MySQLの日本語コレーション - tmtms のメモ

    4月にMySQLの日語コレーションについて語り合う場に呼ばれていろいろ話を聞いてきました。すぐにブログを書こうと思ったんですが、はや2ヶ月経過…。 ときどき、自分がMySQLの文字コードに関して発表する際に、次のようなスライドをいれてるんですが、 MySQL 8.0 でとうとう日語コレーションが入ることになったのに、なんか期待してたのと違いました。 で、その辺の話を聞きました(2ヶ月も経ってるのでうろ覚え)。 Q. わざわざ日語ロケール作るんだったら日人が扱いやすいロケールにしてほしい utf8mb4_ja_0900_as_csはMySQLが独自に考えたものではない。Unicode規格に従っている。過去にいろいろ独自にやって失敗してきてるので、もう独自にやるのは避けたい。 ai(accent insensitive)で「ハ」=「パ」=「バ」になるのも、ci(case insensi

    MySQLの日本語コレーション - tmtms のメモ
    sh19910711
    sh19910711 2017/06/20
    "ja_0900_as_cs の場合は、漢字の順番もちゃんとJIS順になってました。 試してみると、UTF-8の文字コード順ではなくJISコード順(音読みの順)になっていることがわかります"
  • únicode is hard

    In the last couple of months, I've been seeing the ú symbol on British receipts. Why? 1963 - ASCIIIn the beginning* was ASCII. A standard way for computers to exchange text. ASCII was originally designed with 7 bits - that means 128 possible symbols. That ought to be enough for everyone, right? Wrong! ASCII is the American Code for Information Interchange. It contains a $ symbol, but nothing for o

    únicode is hard
  • 寿司とビールについて話し合いをしてきました | GREE Engineering

    こんにちわ。せじまです。 さいきんの kernel について調べてたら、俄に Chromebook への興味が湧いてきたので、遅まきながら C302CA ポチってみました。わたしにとって人生初 Core M ということもあって、早く届かないかなと心待ちにしている今日このごろです。 はじめに MySQL5.7以前でおそらく最も有名な問題の一つに、Sushi-Beer issue of MySQL with utf8mb4 というものがあります。 忙しい人のために三行でまとめますと MySQL は character-set に utf8mb4 を指定すると、寿司やビールなどの絵文字を扱える。 ただ、Collation(照合順序) が utf8mb4_general_ci や utf8mb4_unicode_ci だと、絵文字を区別できない(寿司とビールの絵文字を区別できない)。 utf8mb

    寿司とビールについて話し合いをしてきました | GREE Engineering
  • Unicodeの憂鬱 - Qiita

    40歳目前の中年エンジニアが独りよがりにUnicodeとの思い出を書き綴ってみる。 記憶をベースに細かいことを気にせずに大枠の雰囲気が伝わるように書いてみる。 なぜUnicode? 先日MySQLのバージョンアップを行ったが、その時にCharacter setをutf8からutf8mb4に変換した。 MySQLを普段使わない人はutf8mb4なに?と思うかも知れません。そうです、これはMySQL固有のものです。 どうやらMySQLは永らくUTF8は1文字が1~3バイトであることが前提の実装になっていた。 で、4バイトな文字が登場して、「プギャー」となってutf8mb4というものが生み出されたものと推測される。 その内、utf8mb5が登場するかも知れないなと思うし、そのころにはMySQLはどうなっているんだろうか?と遠い目をしてしまう。 少し気になって調べてみると現在のUnicode9.0

    Unicodeの憂鬱 - Qiita
  • Hacking with Unicode in 2016

    This presentation explores common mistakes made by programmers when dealing with Unicode support and character encodings on the Web. For each mistake, I explain how to fix/prevent it, but also how it could possibly be exploited. #ruhrsec Video: https://www.youtube.com/watch?v=HhIEDWmQS3w

    Hacking with Unicode in 2016
  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • 1