Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 28.291 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Iniciando o cluster hadoop



Finalizado a configuração do sistema iremos iniciar os serviços HDFS e YARN.

Realize os passos abaixo somente na máquina hadoop-server.

Passo 1 - Formatar o sistema de arquivo DFS. Dentro do diretório hadoop-2.6.2, execute o comando:

# bin/hdfs namenode -format

Final do log do resultado esperado:

15/12/14 20:37:46 INFO util.GSet: 0.029999999329447746% max memory 889 MB = 273.1 KB
15/12/14 20:37:46 INFO util.GSet: capacity = 2^16 = 65536 entries
.....
15/12/14 20:37:48 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
15/12/14 20:37:48 INFO util.ExitUtil: Exiting with status 0
15/12/14 20:37:48 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop-master/192.168.2.10
************************************************************/


Passo 2 - O comando a seguir irá iniciar o sistema de arquivos em todos os datanodes listados no arquivo hadoop/etc/hadoop/slaves. Dentro do diretório do hadoop execute:

# sbin/start-dfs.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado hadoop-[USUARIO_HADOOP]-namenode-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do sistema de arquivo HDFS. Já nos escravos, o arquivo gerado se chama hadoop-[USUARIO_HADOOP]-datanode-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:50070 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba datanodes e poderá verificar os computadores slaves que iniciaram o serviço datanode corretamente.

Passo 3 - Iniciar o serviços de gerenciamento de tarefas (resourcemanager) "hadoop-master" e o serviços para execução das tarefas de map-reduce.

# sbin/start-yarn.sh

Após a execução do comando acima, irá criar um arquivo de log dentro do diretório logs chamado yarn-[USUARIO_HADOOP]-resourcemanager-[nome_da_maquina].log no "hadoop-master", com todas as mensagens de erro e informações que ocorreram na iniciação do serviço resourcemanager. Já nos escravos, o arquivo gerado se chama yarn-[USUARIO_HADOOP]-nodemanager-[nome_da_maquina].log também contém os dados e possíveis erros na iniciação do datanode.

Poderá verificar graficamente via interface web se o serviço namenode e os datanodes estão no ar. Acesse o endereço: hadoop-master:8088 (caso não acesse, o hadoop-master apresentou problemas ao executar o comando start-dfs.sh, verifique o log citado acima a possível causa). Clique na aba nodes e poderá verificar os computadores slaves que iniciaram o serviço nodemanager corretamente e estão disponíveis para executar tarefas.

Página anterior     Próxima página

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Instalação OpenMeettings no Debian 7

Sincronizando Bases OpenLDAP e Active Directory

Cliente Nagios no Windows - Instalação e Configuração

Servidor DNS: Debian 9 Stretch

Criando e Consumindo Rede de Compartilhamento NFS

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts