タグ

ブックマーク / jetbead.hatenablog.com (2)

  • ランダムフォレストで遊ぶ - Negative/Positive Thinking

    はじめに 簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。 ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ 詳細な紹介や内容は「参考」を参照 これ自体は、枠組み(フレームワーク)的な感じが強い 単純な場合、以下のようなパラメータがある 決定木の個数 決定木で使用する学習データの割合 決定木の種類 決定木の深さの制限 決定木の各ノードで使用する判別関数・基準 決定木で使用する素性の割合 など 各決定木間の相関が低くなるよう、いろんなところにランダム性を取り入れている 逆に相関が高い場合は、みんな同じような結果を出力しやすいので、みんな間違えてると意味がない また、各決定木は独立しているので、並列処理できる いろんな実装 家Breimanによる実装(Fortran)、Open

    ランダムフォレストで遊ぶ - Negative/Positive Thinking
  • 超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

    はじめに 超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ&試してみた。 与えられるデータ 大量のデータがストリーム形式で与えられるとする 高速にどんどん与えられる 例えば、データパケット監視やtwitterなど カウントしたいデータの種類が膨大 種類をメモリに保持するのが無理 ストリームデータにおける頻度カウント法 正確なカウントは難しいが、近似的に頻度カウントを行うことができる Sticky Sampling Algorithmは解釈が間違っているかもしれない Sticky Sampling Algorithm カウントする要素をサンプリングで選ぶ方法 保持するのは以下の2つのペアの集合 e : 要素(例えばN-gram) f

    超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
  • 1