Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 35.485 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Iniciando o cluster hadoop



Finalizado a configuração do sistema iremos iniciar os serviços HDFS e YARN.

Realize os passos abaixo somente na máquina hadoop-server.

Passo 1 - Formatar o sistema de arquivo DFS. Dentro do diretório hadoop-2.6.2, execute o comando:

# bin/hdfs namenode -format

Final do log do resultado esperado:

15/12/14 20:37:46 INFO util.GSet: 0.029999999329447746% max memory 889 MB = 273.1 KB
15/12/14 20:37:46 INFO util.GSet: capacity = 2^16 = 65536 entries
.....
15/12/14 20:37:48 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
15/12/14 20:37:48 INFO util.ExitUtil: Exiting with status 0
15/12/14 20:37:48 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop-master/192.168.2.10
************************************************************/


Passo 2 - O comando a seguir irá iniciar o sistema de arquivos em todos os datanodes listados no arquivo hadoop/etc/hadoop/slaves. Dentro do diretório do hadoop execute:

# sbin/start-dfs.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado hadoop-[USUARIO_HADOOP]-namenode-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do sistema de arquivo HDFS. Já nos escravos, o arquivo gerado se chama hadoop-[USUARIO_HADOOP]-datanode-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:50070 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba datanodes e poderá verificar os computadores slaves que iniciaram o serviço datanode corretamente.

Passo 3 - Iniciar o serviços de gerenciamento de tarefas (resourcemanager) "hadoop-master" e o serviços para execução das tarefas de map-reduce.

# sbin/start-yarn.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado yarn-[USUARIO_HADOOP]-resourcemanager-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do serviço resourcemanager. Já nos escravos, o arquivo gerado se chama yarn-[USUARIO_HADOOP]-nodemanager-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:8088 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba nodes e poderá verificar os computadores slaves que iniciaram o serviço nodemanager corretamente e estão disponíveis para executar tarefas.

Página anterior     Próxima página

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Análise de Desempenho: Web API

Envio de e-mail criptografado pelo Zabbix usando Postfix

A camada de enlace de dados

Configurando o Rclone no CentOS 7

Testando velocidade entre equipamentos Ubiquiti

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts