EMRでembulkのmapreduce executorを動かすまでに割と苦労したのでメモっておく。 そもそもあんまHadoopエコシステムに詳しくないし、Javaにも詳しくない。 そして、余り情報源が無いので、本当に合ってるのかどうかはちょっと怪しい。 とりあえず、EMRでHadoopクラスタを作る。 使ったのは、emr-4.2.0で、Hadoopのバージョンは2.6.0。 最新じゃないのだが、この理由は後で書く。 HadoopとYARNさえあれば動くので、他のコンポーネントは要らない。 構築時にカスタムブートストラップを使って、embulk、その他必要なjar等をインストールする。 適当な例は以下。 set -e sudo wget http://dl.embulk.org/embulk-latest.jar -O /usr/bin/embulk sudo chmod 755 /us