Hadoop その2

| コメント(0) | トラックバック(0)

ただ今調査中。
前にこっちのエントリで書いた続きみたいなものです。

調べていてわかったことは、

  • 未だに正式リリースされていないのでインターフェースがころころと変わっている
  • それなりの検証をするには、PCを仮想化したとしてもそれなりの台数を揃える必要がある
  • そもそも「こんなことしたい」という目的がないと調べても意味がない

ということがわかった。ダメダメです。

あとはHadoopに付属している「Hadoop Streaming」も調べています。
これってLinux標準コマンドとかスクリプトをMap/Reduceとして実行できるのでJavaが書けなくてもHadoopの機能が利用できるので嬉しいかも。
と言いながら、そもそもJava書けない人がHadoopをどうこうするということはないのではないか?、とちょっと思ったり。

でもってやっかいな問題が。
仕事のことなので詳しくいえないのですが、あるバイナリファイルを読み込んでMap/Reduceをしようとしているのですが、このバイナリファイルをそのままMap/Reduceにかけてしまうとファイルが変に断片化されてデータ内容が読み込めないのです。
そのため、入力ファイルのフォーマットを定義するInputFormatクラス、もしくはバイナリファイルなのでCompressクラスを作ろうかと検討中。
GzipとかはHadoopから提供されているのでいいのですが、その他のバイナリは自前で作らなきゃならないから大変だし、もっと言えば先に書いたようにインターフェースが変わっているので最新インターフェースでのサンプル量が乏しいのです。

色々なところではそれなりの評価をされているので、早く正式リリースしてほしいものです。
だってさすがに0.20.2はないよなぁ、と思ってしまうのは私だけ?

トラックバック(0)

トラックバックURL: http://www.boundless-ocean.ne.jp/mt/mt-tb.cgi/1029

コメントする

tomochika_satoをフォローしましょう
track feed BoundlessOcean
フィードメーター - BoundlessOcean
あわせて読みたいブログパーツ
人気ブログランキングへ
OpenID対応しています OpenIDについて

BlogPeople

Powered by Movable Type 4.27-ja
アダルトアニメDVD通販

このブログ記事について

このページは、Tomochikaが2010年6月24日 10:29に書いたブログ記事です。

ひとつ前のブログ記事は「鋼の錬金術師」です。

次のブログ記事は「史上最低の参議院選挙2010」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。