Tutorial hadoop - Guia prático de um cluster com 3 computadores

ronyjah

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 37.497 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1

14 0

Denuncie Favoritos Indicar Impressora

Possíveis problemas

Caso edite algum arquivo de configuração do hadoop, deverá replicar para todas as outras máquinas, deletar nos slaves o diretório /tmp/hadoop-[USUARIO HADOOP], realizar os passos descritos na página "iniciando cluster hadoop.

Sempre que reiniciar as máquinas verifique se perdeu a configuração de hostname, pelo comando hostname -f.

Teste máquinas com 10 GB de espaço livre. Testei com 1 GB e não subiu serviço corretamente.

Eu editei diretamente o arquivo hadoop-env.sh para configurar dois parâmetros: local do diretório do java e parâmetros de execução do runtime do java. No primeiro caso, você pode ter instalado o java em outro local. Então para testar se informou o local corretamente, teste o comando abaixo dentro do diretório do hadoop:

bin/hadoop version

Resultado esperado:

Hadoop 2.6.2 Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0cfd050febe4a30b1ee1551dcc527589509fb681 Compiled by jenkins on 2015-10-22T00:42Z Compiled with protoc 2.5.0 From source with checksum f9ebb94bf5bf9bec892825ede28baca This command was run using /opt/hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.2.jar

Se acaso, executar o comando sbin/start-dfs.sh e aparecer mensagens como:

VM: ssh: Could not resolve hostname VM: Name or service not known You: ssh: Could not resolve hostname You: Name or service not known

Edite o arquivo hadoop-env.sh conforme abaixo.

De:

export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"

Para:

export HADOOP_OPTS="$HADOOP_OPTS -XX:-PrintWarnings -Djava.net.preferIPv4Stack=true"

Página anterior

Páginas do artigo

   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas

Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

DHCP com controle de IP e compartilhamento no Debian Squeeze

Redes de Computadores · IPtables · Endereços IPs - Explicações básicas

Proxy Squid com SquidGuard + Controle de Banda e Autenticação NTLM no Samba 4 (CentOS 6.5 - 64 bits Minimal)

Tutorial de instalação e configuração do CACIC 3.1.15

NET Virtua, Bloqueio de DNS, SmartTVs, Netflix e Youtube, uma mistura explosiva

Comentários

[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

6 0