Tutorial hadoop - Guia prático de um cluster com 3 computadores

ronyjah

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 37.440 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1

14 0

Denuncie Favoritos Indicar Impressora

Configurando o ambiente nos computadores para receber o cluster hadoop

É fortemente recomendado que configure o nome das máquinas as fornecendo um apelido de acordo com a função do PC no cluster. Em nosso cluster definimos o IP 192.168.2.10 para hadoop-master(namenode), IP 192.168.2.11 para o slave-1(datanode) e IP 192.168.2.12 para o slave-2(datanode).

Passo 1 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o namenode (Hadoop-master).

127.0.0.1 hadoop-master
192.168.2.11 slave-1
192.168.2.12 slave-2

Passo 2 - A seguir execute o comando no hadoop-master

# hostname -f

O resultado esperado deve ser:

hadoop-master

Passo 3 - Caso contrário execute:

# hostname -b hadoop-master

Obs.: este passo deve ser refeito se a máquina for desligada.

Repita o passo 2 e confirme se o resultado coincide com o apelido adotado (ex: hadoop-master).

Passo 4 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o datanode (slave-1):

192.168.2.10 hadoop-master
127.0.0.1 slave-1
192.168.2.12 slave-2

Execute o comando:

# hostname -b slave-1

Verifique se o resultado é "slave-1" com o comando abaixo:

# hostname -f

Passo 5 - Edite o arquivo /etc/hosts/ no pc escolhido para ser o datanode (slave-2):

192.168.2.10 hadoop-master
192.168.2.11 slave-1
127.0.0.1 slave-2

Execute o comando:

# hostname -b slave-2

Verifique se o resultado é "slave-2" com o comando abaixo:

# hostname -f

O namenode configura e envia os blocos do metadado para os datanodes usando o serviço ssh. Sendo necessário preparar que as máquinas possam conectar entre si sem a necessidade de solicitar senha. Considero que o serviço ssh server esteja instalado nas máquinas.

Obs.: as configurações abaixo podem não funcionar se o firewall estiver bloqueando o acesso a porta 22.

Passo 6 - Replique os comandos abaixo em todos os computadores do cluster com o login do usuário que irá iniciar os serviços hadoop descritos nas próximas paginas.

Ex.: no pc hadoop-master:

# ssh-keygen -t rsa
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@hadoop-master
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@slave-1
# ssh-copy-id -i ~/.ssh/id_rsa.pub [USUARIO_HADOOP]@slave-2

Checando se a configuração está correta. Execute o comando abaixo e deverá logar nas maquinas no cluster sem que a senha seja solicitada.

# ssh hadoop-master
# exit ( fazendo logout)
# ssh slave-1
# exit ( fazendo logout)
# ssh slave-2
# exit ( fazendo logout)

Passo 7 - repita os comandos do passo 6, no pc slave-1 e slave-2.

Na próxima página iremos baixar o hadoop e editar os seus arquivos e configuração.

Página anterior Próxima página

Páginas do artigo

   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas

Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

TurnKey Linux - Instale e configure serviços de rede facilmente

Instalando Servidor RackTables para Documentação de Rede

Utilizando o script vpnautomatica

Openconnect - Conexão de VPN Paloalto no Debian

Proxy Squid com SquidGuard + Controle de Banda e Autenticação NTLM no Samba 4 (CentOS 6.5 - 64 bits Minimal)

Comentários

[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

6 0