タグ

MapReduceに関するfn7のブックマーク (3)

  • #appengine MapReduceで毎秒2000件×8日間=15億件を処理! - スティルハウスの書庫の書庫

    まだMapper APIのみの提供でReducer APIがないappengine-mapreduceライブラリについては、10万件のデータを対象としたテストでは1000件/秒程度で処理できたよというレビューをお届けしました。しかしApp Engineの中の人であるBrettさんは15億件のデータを対象としてmapper APIを試したところ、毎秒2000件以上のスループットを達成したそうです。以下におもな点を要約します: Brett Slatkin - One Big Fluke - Biggest Map() of my own. I recently ran the biggest Map() job of my life on my own data using the new App Engine Mapper framework: 1.5 Billion rows. The d

    #appengine MapReduceで毎秒2000件×8日間=15億件を処理! - スティルハウスの書庫の書庫
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • 第九研究室だより:書きたいだけです

    2009年12月17日 書きたいだけです 実は、先日のVIOPS04ワークショップで、大輝くんと門林さんとの対談や、IntelVT、SkipGraphのセッションに妙に煽られてしまい、コンパイラとかインタプリタとかOSとか、無性にそーゆーのを書きたい衝動に駆られました。プログラミングを始めた頃、誰もが必ず一度は書いてみようと挑戦するアレです。とは言っても、この歳になると中々集中して書ける時間も作れないので、なんの脈絡も無いですが、業務の息抜き代わりにB-Shell(ボーンシェル)で、MapReduceでも書いてみようかなぁーーと。 なぜ、B-Shellかというと、私が20年くらい前にこの仕事に就いた頃、とあるUNIX関係の雑誌記事でC-Shellで出来る事はたいていB-Shellでも出来るが、その逆は必ずしも成り立たないという一文を見た事があるからです。以来私はShellでスクリプトを書く

    fn7
    fn7 2009/12/17
    かっこいい
  • 1