Instalando Apache Hadoop

z4r4tu5tr4

Esse artigo tende a tentar explicar a instalação e configuração do Apache Hadoop 2 em suas três maneiras de instalação.

[ Hits: 31.298 ]

Por: Eduardo Ferreira Mendes em 14/08/2015 | Blog: https://github.com/z4r4tu5tr4

9 0

Denuncie Favoritos Indicar Impressora

Instalação do modo totalmente distribuído

Para configurar o modo totalmente distribuído você deve configurar o modo pseudo-distribuído como vimos na página anterior.

Existem poucas diferenças entre a configuração do pseudo-distribuído e o modo completamente distribuído. Na verdade, o Hadoop só precisa estar instalado em todos os nós do nosso cluster e podemos fazer isso de uma maneira muito simples:

# rsync -avxP /usr/local/hadoop root@[ip_do_cliente]:/usr/local/hadoop

Mas para que isso aconteça de uma maneira transparente temos que configurar o SSH do server, para autenticação sem senha, em todos os outros nós que farão parte do nosso cluster como visto anteriormente.

Os arquivos XML tem algumas pequenas modificações:

core-site.xml - aqui definimos o uso do HDFS e o endereço do seu master e a porta que será usada:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://NOME_DO_SEU_MASTER:9000</value>
    </property>
</configuration>

hdfs-site.xml - aqui está sendo definido o numero de replicações de cada arquivo do HDFS:

<configuration>
    <property>
            <name>dfs.replication</name>
            <value>3</value>
    </property>
</configuration>

mapred-site.xml - aqui passamos a bola do gerenciador de MapReduce para o Yarn e dizemos quem vai ser o Master para distribuir tarefas:

<configuration>
    <property>
            <name>mapred.job.tracker</name>
            <value>NOME_DO_SEU_MASTER:5431</value>
    </property>
    <property>
            <name>mapred.framework.name</name>
            <value>yarn</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>NOME_DO_SEU_MASTER:8025</value>
        </property>
        <property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>NOME_DO_SEU_MASTER:8035</value>
    </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value>NOME_DO_SEU_MASTER:8050</value>
        </property>
</configuration>

Todos os outros nós precisam estar nomeados no seu /etc/hosts, como por exemplo:

hadoopmaster [IP]
hadoopslave1 [IP]
hadoopslave2 [IP]
hadoopslave3 [IP]
hadoopslave4 [IP]
hadoopslave5 [IP]
hadoopslave6 [IP]
hadoopslave7 [IP]
hadoopslave8 [IP]
hadoopslave9 [IP]

Agora, dois novos arquivos precisam ser criados dentro de /usr/local/hadoop/etc/hadoop. slaves - que são todos os computadores que farão parte do nosso cluster como "clientes":

hadoopslave1
hadoopslave2
hadoopslave3
hadoopslave4
hadoopslave5
hadoopslave6
hadoopslave7
hadoopslave8
hadoopslave9

master - que é o computador responsável pelo gerenciamento dos nós:

hadoopmaster

Teste de funcionamento: acesse http://localhost:8088

Página anterior Próxima página

Páginas do artigo

   1. O que é o Apache Hadoop
   2. Instalação do modo Single-Node
   3. Instalação do modo Pseudo-Distribuído
   4. Instalação do modo totalmente distribuído
   5. Referências

Outros artigos deste autor

Nenhum artigo encontrado.

Leitura recomendada

Instalação do cliente no-ip no Debian

Instalando o Linux Ubuntu 8.04 Hardy Heron

Gentoo: detectando impressoras de rede e como fixar uma impressora por IP

Dual boot no Fenix Extreme Linux

Instalando e configurando o PostgreSQL

Comentários

[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?

0 0

[2] Comentário enviado por z4r4tu5tr4 em 28/04/2016 - 22:08h

[1] Comentário enviado por HenriqueSantana em 28/04/2016 - 15:47h

Ótimo trabalho, será de grande uso. Mt Obrigado.
Poderia informar os requisitos necessários?

Cara, se quiser, me manda um e-mail a gente vai conversando mendesxeduardo at gmail

1 0

[3] Comentário enviado por anderson-dhell em 20/02/2017 - 16:30h

parabéns, conteúdo muito bom, eu instalei o modo single node, mas fiquei com algumas dúvidas. To querendo usar o hadoop no meu Tcc, mas tô iniciando agora. gostaria de ver as possibilidades.

0 0