Tutorial hadoop - Guia prático de um cluster com 3 computadores

ronyjah

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 37.450 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1

14 0

Denuncie Favoritos Indicar Impressora

Iniciando o cluster hadoop

Finalizado a configuração do sistema iremos iniciar os serviços HDFS e YARN.

Realize os passos abaixo somente na máquina hadoop-server.

Passo 1 - Formatar o sistema de arquivo DFS. Dentro do diretório hadoop-2.6.2, execute o comando:

# bin/hdfs namenode -format

Final do log do resultado esperado:

15/12/14 20:37:46 INFO util.GSet: 0.029999999329447746% max memory 889 MB = 273.1 KB 15/12/14 20:37:46 INFO util.GSet: capacity = 2^16 = 65536 entries ..... 15/12/14 20:37:48 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 15/12/14 20:37:48 INFO util.ExitUtil: Exiting with status 0 15/12/14 20:37:48 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at hadoop-master/192.168.2.10 ************************************************************/

Passo 2 - O comando a seguir irá iniciar o sistema de arquivos em todos os datanodes listados no arquivo hadoop/etc/hadoop/slaves. Dentro do diretório do hadoop execute:

# sbin/start-dfs.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado hadoop-[USUARIO_HADOOP]-namenode-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do sistema de arquivo HDFS. Já nos escravos, o arquivo gerado se chama hadoop-[USUARIO_HADOOP]-datanode-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:50070 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba datanodes e poderá verificar os computadores slaves que iniciaram o serviço datanode corretamente.

Passo 3 - Iniciar o serviços de gerenciamento de tarefas (resourcemanager) "hadoop-master" e o serviços para execução das tarefas de map-reduce.

# sbin/start-yarn.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado yarn-[USUARIO_HADOOP]-resourcemanager-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do serviço resourcemanager. Já nos escravos, o arquivo gerado se chama yarn-[USUARIO_HADOOP]-nodemanager-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:8088 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba nodes e poderá verificar os computadores slaves que iniciaram o serviço nodemanager corretamente e estão disponíveis para executar tarefas.

Página anterior Próxima página

Páginas do artigo

   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas

Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

FAN Nagios - Tela inicial do Nagios

Roubando bits - Receita para cálculo de sub-redes

Configuração do ZERO de um Servidor DHCP

Asterisk - Recebimento de Fax com encaminhamento por e-mail

Parâmetros de configuração de VPN

Comentários

[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

6 0