Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 28.245 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Testando o cluster Hadoop



Neste tópico iremos demonstrar o funcionamento do cluster rodando uma aplicação de exemplo contida dentro do próprio pacote do hadoop chamada wordcount, que realiza simplesmente a contagem do número de palavras em um arquivo.

Para isso baixe o arquivo txt no link abaixo. Depois de descompactado ele possuíra 160 MB.
Descompacte o arquivo bz2:

# bzip2 -d frwiki-20151202-pages-articles-multistream-index.txt.bz2

Renomeie o arquivo:

# mv frwiki-20151202-pages-articles-multistream-index.txt metadata.txt

A partir do diretório do hadoop-2.6.2 crie o diretório /input no sistema de arquivo dfs:

# bin/hadoop dfs -mkdir /input

Verifique se o diretório foi criado:

# bin/hadoop dfs -ls /input

Copie o arquivo metadata.txt para dentro do diretório /input:

# bin/hadoop dfs -copyFromLocal [CAMINHO DO ARQUIVO]/metadata.txt /input

Verifique se o arquivo foi copiado:

# bin/hadoop dfs -ls /input

Obs.: se você der ls ou tentar encontrar o diretório /input o sistema não irá localizá-lo. Sabe dizer por que isso ocorre?

Execute o comando para início da computação usando o cluster hadoop:

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar wordcount /input/metadata.txt /output

Obs.: a partir deste momento o cluster estará realizando a contagem das palavras em um arquivo de 165MB. Executando a tarefa de forma paralela nos dois datanodes/nodemanager, aumentando assim a performance do sistema.

Se tudo ocorrer bem,(map 100% e reduce 100%) dois arquivos serão gerados no diretório /output visto somente pelo comando abaixo:

# bin/hadoop dfs -ls /output/

O resultado da contagem pode ser visto pelo comando:

# bin/hadoop dfs -cat /output/part-r-00000

Para este exemplo, caso queira reexecutar a aplicação, execute os comandos abaixo para limpar o diretório output:

# bin/hadoop dfs -rm /output/*
# bin/hadoop dfs -rmdir /output


Página anterior     Próxima página

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Instalando o oVirt 4.3 Single Host

Criando regras simples com IP6Tables

Configuração de serviço do Nagios para monitorar o APT do Ubuntu

Configurações Básicas no CentOS 7

Problemas encontrados na adoção do IPv6

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts