ただ今調査中。
前にこっちのエントリで書いた続きみたいなものです。
調べていてわかったことは、
- 未だに正式リリースされていないのでインターフェースがころころと変わっている
- それなりの検証をするには、PCを仮想化したとしてもそれなりの台数を揃える必要がある
- そもそも「こんなことしたい」という目的がないと調べても意味がない
ということがわかった。ダメダメです。
あとはHadoopに付属している「Hadoop Streaming」も調べています。
これってLinux標準コマンドとかスクリプトをMap/Reduceとして実行できるのでJavaが書けなくてもHadoopの機能が利用できるので嬉しいかも。
と言いながら、そもそもJava書けない人がHadoopをどうこうするということはないのではないか?、とちょっと思ったり。
でもってやっかいな問題が。
仕事のことなので詳しくいえないのですが、あるバイナリファイルを読み込んでMap/Reduceをしようとしているのですが、このバイナリファイルをそのままMap/Reduceにかけてしまうとファイルが変に断片化されてデータ内容が読み込めないのです。
そのため、入力ファイルのフォーマットを定義するInputFormatクラス、もしくはバイナリファイルなのでCompressクラスを作ろうかと検討中。
GzipとかはHadoopから提供されているのでいいのですが、その他のバイナリは自前で作らなきゃならないから大変だし、もっと言えば先に書いたようにインターフェースが変わっているので最新インターフェースでのサンプル量が乏しいのです。
色々なところではそれなりの評価をされているので、早く正式リリースしてほしいものです。
だってさすがに0.20.2はないよなぁ、と思ってしまうのは私だけ?






コメントする