Nyohoのブックマーク - はてなブックマーク

ランダムフォレストで遊ぶ - Negative/Positive Thinking
はじめに簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ詳細な紹介や内容は「参考」を参照これ自体は、枠組み(フレームワーク)的な感じが強い単純な場合、以下のようなパラメータがある決定木の個数決定木で使用する学習データの割合決定木の種類決定木の深さの制限決定木の各ノードで使用する判別関数・基準決定木で使用する素性の割合など各決定木間の相関が低くなるよう、いろんなところにランダム性を取り入れている逆に相関が高い場合は、みんな同じような結果を出力しやすいので、みんな間違えてると意味がないまた、各決定木は独立しているので、並列処理できるいろんな実装本家Breimanによる実装(Fortran)、Open
Nyoho 2014/08/18
機械学習
リンク
超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
はじめに超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ＆試してみた。与えられるデータ大量のデータがストリーム形式で与えられるとする高速にどんどん与えられる例えば、データパケット監視やtwitterなどカウントしたいデータの種類が膨大種類をメモリに保持するのが無理ストリームデータにおける頻度カウント法正確なカウントは難しいが、近似的に頻度カウントを行うことができる Sticky Sampling Algorithmは解釈が間違っているかもしれない Sticky Sampling Algorithm カウントする要素をサンプリングで選ぶ方法保持するのは以下の2つのペアの集合 e : 要素(例えばN-gram) f
Nyoho 2013/09/24
自然言語処理
リンク
1

はてなブックマーク

タグ

ブックマーク / jetbead.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / jetbead.hatenablog.com (2)

ランダムフォレストで遊ぶ - Negative/Positive Thinking

超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス