W tym samouczku przeprowadzimy Cię krok po kroku przez proces instalacji Apache Hadoop na komputerze z systemem Linux (Ubuntu). To jest proces dwuczęściowy
- Część 1) Pobierz i zainstaluj Hadoop
- Część 2) Skonfiguruj Hadoop
Istnieją 2 wymagania wstępne
- Musisz mieć zainstalowany i uruchomiony Ubuntu
- Musisz mieć zainstalowaną Javę.
Część 1) Pobierz i zainstaluj Hadoop
Krok 1) Dodaj użytkownika systemu Hadoop za pomocą poniższego polecenia
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Wprowadź swoje hasło, nazwę i inne dane.
UWAGA: istnieje możliwość wystąpienia wymienionego poniżej błędu w tym procesie konfiguracji i instalacji.
„hduser nie znajduje się w pliku sudoers. Ten incydent zostanie zgłoszony”.
Ten błąd można rozwiązać, logując się jako użytkownik root
Wykonaj polecenie
sudo adduser hduser_ sudo
Re-login as hduser_
Krok 2) Skonfiguruj SSH
Aby zarządzać węzłami w klastrze, Hadoop wymaga dostępu SSH
Najpierw przełącz użytkownika, wprowadź następujące polecenie
su - hduser_
To polecenie utworzy nowy klucz.
ssh-keygen -t rsa -P ""
Włącz dostęp SSH do komputera lokalnego za pomocą tego klucza.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Teraz przetestuj konfigurację SSH, łącząc się z localhost jako użytkownik „hduser”.
ssh localhost
Uwaga: pamiętaj, że jeśli zobaczysz poniższy błąd w odpowiedzi na 'ssh localhost', istnieje możliwość, że SSH nie jest dostępne w tym systemie-
Aby rozwiązać ten problem -
Wyczyść SSH używając,
sudo apt-get purge openssh-server
Dobrą praktyką jest oczyszczenie przed rozpoczęciem instalacji
Zainstaluj SSH za pomocą polecenia
sudo apt-get install openssh-server
Krok 3) Następnym krokiem jest pobranie Hadoop
Wybierz Stabilny
Wybierz plik tar.gz (nie plik z src)
Po zakończeniu pobierania przejdź do katalogu zawierającego plik tar
Wchodzić,
sudo tar xzf hadoop-2.2.0.tar.gz
Teraz zmień nazwę hadoop-2.2.0 na hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Część 2) Skonfiguruj Hadoop
Krok 1) Zmodyfikuj plik ~ / .bashrc
Dodaj następujące wiersze na końcu pliku ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Teraz wyprowadź tę konfigurację środowiska za pomocą poniższego polecenia
. ~/.bashrc
Krok 2) Konfiguracje związane z HDFS
Ustaw JAVA_HOME w pliku $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Z
W $ HADOOP_HOME / etc / hadoop / core-site.xml znajdują się dwa parametry, które należy ustawić-
1. „hadoop.tmp.dir” - używany do określenia katalogu, który będzie używany przez Hadoop do przechowywania plików danych.
2. „fs.default.name” - określa domyślny system plików.
Aby ustawić te parametry, otwórz plik core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Skopiuj poniższą linię między tagami
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Przejdź do katalogu $ HADOOP_HOME / etc / Hadoop
Teraz utwórz katalog wymieniony w core-site.xml
sudo mkdir -p
Przyznaj uprawnienia do katalogu
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Krok 3) Konfiguracja zmniejszania mapy
Zanim zaczniesz z tymi konfiguracjami, ustawmy ścieżkę HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
I wejdź
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Następnie wejdź
sudo chmod +x /etc/profile.d/hadoop.sh
Wyjdź z terminalu i uruchom ponownie
Wpisz echo $ HADOOP_HOME. Aby zweryfikować ścieżkę
Teraz skopiuj pliki
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Otwórz plik mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Dodaj poniższe wiersze ustawień między tagami
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Otwórz $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, jak poniżej,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Dodaj poniższe linie ustawień między tagami
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Utwórz katalog określony w powyższym ustawieniu-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Krok 4) Zanim po raz pierwszy uruchomimy Hadoop, sformatuj HDFS za pomocą poniższego polecenia
$HADOOP_HOME/bin/hdfs namenode -format
Krok 5) Uruchom klaster z jednym węzłem Hadoop za pomocą poniższego polecenia
$HADOOP_HOME/sbin/start-dfs.sh
Wyjście powyższego polecenia
$HADOOP_HOME/sbin/start-yarn.sh
Używając narzędzia / polecenia „jps” , sprawdź, czy wszystkie procesy związane z Hadoop działają, czy nie.
Jeśli usługa Hadoop została pomyślnie uruchomiona, dane wyjściowe jps powinny pokazywać NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Krok 6) Zatrzymywanie Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh