Jak zainstalować Hadoop z konfiguracją krok po kroku w systemie Ubuntu

Spisie treści:

Anonim

W tym samouczku przeprowadzimy Cię krok po kroku przez proces instalacji Apache Hadoop na komputerze z systemem Linux (Ubuntu). To jest proces dwuczęściowy

  • Część 1) Pobierz i zainstaluj Hadoop
  • Część 2) Skonfiguruj Hadoop

Istnieją 2 wymagania wstępne

  • Musisz mieć zainstalowany i uruchomiony Ubuntu
  • Musisz mieć zainstalowaną Javę.

Część 1) Pobierz i zainstaluj Hadoop

Krok 1) Dodaj użytkownika systemu Hadoop za pomocą poniższego polecenia

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Wprowadź swoje hasło, nazwę i inne dane.

UWAGA: istnieje możliwość wystąpienia wymienionego poniżej błędu w tym procesie konfiguracji i instalacji.

„hduser nie znajduje się w pliku sudoers. Ten incydent zostanie zgłoszony”.

Ten błąd można rozwiązać, logując się jako użytkownik root

Wykonaj polecenie

sudo adduser hduser_ sudo

Re-login as hduser_

Krok 2) Skonfiguruj SSH

Aby zarządzać węzłami w klastrze, Hadoop wymaga dostępu SSH

Najpierw przełącz użytkownika, wprowadź następujące polecenie

su - hduser_

To polecenie utworzy nowy klucz.

ssh-keygen -t rsa -P ""

Włącz dostęp SSH do komputera lokalnego za pomocą tego klucza.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Teraz przetestuj konfigurację SSH, łącząc się z localhost jako użytkownik „hduser”.

ssh localhost

Uwaga: pamiętaj, że jeśli zobaczysz poniższy błąd w odpowiedzi na 'ssh localhost', istnieje możliwość, że SSH nie jest dostępne w tym systemie-

Aby rozwiązać ten problem -

Wyczyść SSH używając,

sudo apt-get purge openssh-server

Dobrą praktyką jest oczyszczenie przed rozpoczęciem instalacji

Zainstaluj SSH za pomocą polecenia

sudo apt-get install openssh-server

Krok 3) Następnym krokiem jest pobranie Hadoop

Wybierz Stabilny

Wybierz plik tar.gz (nie plik z src)

Po zakończeniu pobierania przejdź do katalogu zawierającego plik tar

Wchodzić,

sudo tar xzf hadoop-2.2.0.tar.gz

Teraz zmień nazwę hadoop-2.2.0 na hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Część 2) Skonfiguruj Hadoop

Krok 1) Zmodyfikuj plik ~ / .bashrc

Dodaj następujące wiersze na końcu pliku ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Teraz wyprowadź tę konfigurację środowiska za pomocą poniższego polecenia

. ~/.bashrc

Krok 2) Konfiguracje związane z HDFS

Ustaw JAVA_HOME w pliku $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Z

W $ HADOOP_HOME / etc / hadoop / core-site.xml znajdują się dwa parametry, które należy ustawić-

1. „hadoop.tmp.dir” - używany do określenia katalogu, który będzie używany przez Hadoop do przechowywania plików danych.

2. „fs.default.name” - określa domyślny system plików.

Aby ustawić te parametry, otwórz plik core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Skopiuj poniższą linię między tagami

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Przejdź do katalogu $ HADOOP_HOME / etc / Hadoop

Teraz utwórz katalog wymieniony w core-site.xml

sudo mkdir -p 

Przyznaj uprawnienia do katalogu

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Krok 3) Konfiguracja zmniejszania mapy

Zanim zaczniesz z tymi konfiguracjami, ustawmy ścieżkę HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

I wejdź

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Następnie wejdź

sudo chmod +x /etc/profile.d/hadoop.sh

Wyjdź z terminalu i uruchom ponownie

Wpisz echo $ HADOOP_HOME. Aby zweryfikować ścieżkę

Teraz skopiuj pliki

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Otwórz plik mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Dodaj poniższe wiersze ustawień między tagami i

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Otwórz $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, jak poniżej,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Dodaj poniższe linie ustawień między tagami i

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Utwórz katalog określony w powyższym ustawieniu-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Krok 4) Zanim po raz pierwszy uruchomimy Hadoop, sformatuj HDFS za pomocą poniższego polecenia

$HADOOP_HOME/bin/hdfs namenode -format

Krok 5) Uruchom klaster z jednym węzłem Hadoop za pomocą poniższego polecenia

$HADOOP_HOME/sbin/start-dfs.sh

Wyjście powyższego polecenia

$HADOOP_HOME/sbin/start-yarn.sh

Używając narzędzia / polecenia „jps” , sprawdź, czy wszystkie procesy związane z Hadoop działają, czy nie.

Jeśli usługa Hadoop została pomyślnie uruchomiona, dane wyjściowe jps powinny pokazywać NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Krok 6) Zatrzymywanie Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh