はじめに 簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。 ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ 詳細な紹介や内容は「参考」を参照 これ自体は、枠組み(フレームワーク)的な感じが強い 単純な場合、以下のようなパラメータがある 決定木の個数 決定木で使用する学習データの割合 決定木の種類 決定木の深さの制限 決定木の各ノードで使用する判別関数・基準 決定木で使用する素性の割合 など 各決定木間の相関が低くなるよう、いろんなところにランダム性を取り入れている 逆に相関が高い場合は、みんな同じような結果を出力しやすいので、みんな間違えてると意味がない また、各決定木は独立しているので、並列処理できる いろんな実装 本家Breimanによる実装(Fortran)、Open