タグ別アーカイブ: Hadoop

Raspberry Pi 2 x 4台でHadoopの完全分散モードを動作させる 後編

hadoop_cluster-1

前回は事前準備だけで終わってしまいました。今回でHadoop本体の設定からMapReduceのサンプル動作確認まで一気にやってしまいます。

ちなみに、Hadoopを動かすにはJavaが必要なのですが、最新のRaspbian OSには初めからJavaが入っているので、今回はそれをそのまま使うようにしています。

続きを読む

Raspberry Pi 2 x 4台でHadoopの完全分散モードを動作させる 前編

hadoop_cluster-1

前回「完全分散モードでちょっと手こずっています」という終わり方をしてしまいましたが、その後参考になりそうなサイトが見つかったので、それをベースに何とか完全分散モードの動作確認までたどり着きました。

上記の内容をベースに、省略されていたり足りないところを補足しながら進めていきます。それから、補助的に以下のサイトも参考にさせていただいています。

なお、今回はとりあえず動かすことを目的としているので、余分な手順が含まれている可能性があります。予めご了承ください。

続きを読む

Raspberry Pi上でHadoopクラスタを構築する 〜インストールから擬似分散モードのテストまで〜

ResourceManager

今回はお勉強モードです。

普段のお仕事の中で並列分散処理基盤と関わることがあって、それで以前にRaspberry Pi上でのSpark環境構築やらStorm環境構築やらをやったことがあるのですが、並列分散処理基盤の元祖とも言えるHadoopについては、ほとんどノータッチでやってきてしまいました。

多分これからはHadoopよりSparkを使うことの方が多くなってくる気はしているのですが、Sparkを使いこなしていく中で、クラスタマネージャとしてYARNを使わなくてはいけないときがくるかもしれません。

ということで、一回本腰を入れて、Hadoop(特にYARN)を理解するための環境構築をやってみようと思います。利用するのは、おなじみRaspberry Pi 2 Type Bです。

あと、Hadoopについては本当に一度も触ったことがない(本を少し読んだ程度の知識があるだけ)ので、以下の環境構築ではだいぶ無駄なことをしている可能性があります。あくまで参考程度にご覧いただければと思います(CDHとか言うのをちらほら見かけるのですが、まだちゃんと理解していないので今回は使っていません)。

続きを読む