Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 28.266 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Configurando o ambiente nos computadores para receber o cluster hadoop



É fortemente recomendado que configure o nome das máquinas as fornecendo um apelido de acordo com a função do PC no cluster. Em nosso cluster definimos o IP 192.168.2.10 para hadoop-master(namenode), IP 192.168.2.11 para o slave-1(datanode) e IP 192.168.2.12 para o slave-2(datanode).

Passo 1 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o namenode (Hadoop-master).

127.0.0.1 hadoop-master
192.168.2.11 slave-1
192.168.2.12 slave-2

Passo 2 - A seguir execute o comando no hadoop-master

# hostname -f

O resultado esperado deve ser:

hadoop-master

Passo 3 - Caso contrário execute:

# hostname -b hadoop-master

Obs.: este passo deve ser refeito se a máquina for desligada.

Repita o passo 2 e confirme se o resultado coincide com o apelido adotado (ex: hadoop-master).

Passo 4 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o datanode (slave-1):

192.168.2.10 hadoop-master
127.0.0.1 slave-1
192.168.2.12 slave-2

Execute o comando:

# hostname -b slave-1

Verifique se o resultado é "slave-1" com o comando abaixo:

# hostname -f

Passo 5 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o datanode (slave-2):

192.168.2.10 hadoop-master
192.168.2.11 slave-1
127.0.0.1 slave-2

Execute o comando:

# hostname -b slave-2

Verifique se o resultado é "slave-2" com o comando abaixo:

# hostname -f

O namenode configura e envia os blocos do metadado para os datanodes usando o serviço ssh. Sendo necessário preparar que as máquinas possam conectar entre si sem a necessidade de solicitar senha. Considero que o serviço ssh server esteja instalado nas máquinas.

Obs.: as configurações abaixo podem não funcionar se o firewall estiver bloqueando o acesso a porta 22.

Passo 6 - Replique os comandos abaixo em todos os computadores do cluster com o login do usuário que irá iniciar os serviços hadoop descritos nas próximas paginas.

Ex.: no pc hadoop-master:

# ssh-keygen -t rsa
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@hadoop-master
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@slave-1
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@slave-2


Checando se a configuração está correta. Execute o comando abaixo e deverá logar nas maquinas no cluster sem que a senha seja solicitada.

# ssh hadoop-master
# exit
( fazendo logout)
# ssh slave-1
# exit
( fazendo logout)
# ssh slave-2
# exit
( fazendo logout)

Passo 7 - repita os comandos do passo 6, no pc slave-1 e slave-2.

Na próxima página iremos baixar o hadoop e editar os seus arquivos e configuração.

Página anterior     Próxima página

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Zabbix no Debian 7.8.0

Instalando o Zabbix 2.4.3 em ambientes CentOS/RHEL 7

Zoneminder: Substituindo um Unifi NVR

Asterisk - Configuração de Ramais SIP

Conexões Wireless com DHCP no Slackware - Configuração à moda antiga

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts