Computação Distribuída com TORQUE Resource Manager

O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída. É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

[ Hits: 20.943 ]

Por: Juno Kim em 28/08/2013 | Blog: http://www.kim.eti.br


Testes dos cluster



Execute o comando pbsnodes -a e deverá exibir a seguinte mensagem:

# pbsnodes -a
cc-vol01
state = free
np = 8
ntype = cluster
status = rectime=1377278496,varattr=,jobs=,state=free,netload=14836207715,gres=,
loadave=0.00,ncpus=8,physmem=16385144kb,
availmem=46749604kb,totmem=47634548kb,idletime=357091,nusers=0,nsessions=0,uname=Linux cc-vol01 3.2.0-4-amd64
#1 SMP Debian 3.2.46-1 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
cc-vol02
state = free
np = 8
ntype = cluster
status = rectime=1377278500,varattr=,jobs=,state=free,netload=12929673891,gres=,
loadave=0.00,ncpus=8,physmem=16383640kb,
availmem=46748096kb,totmem=47633044kb,idletime=357224,nusers=0,nsessions=0,uname=Linux cc-vol02 3.2.0-4-amd64
#1 SMP Debian 3.2.46-1 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003

Isso prova que nossos nós estão ativos e prontos.

Agora, vamos submeter alguns trabalhos (jobs) para o cluster:

# echo "sleep 30" | qsub -q [email protected]

A imagem abaixo, mostra o processamento de alguns "jobs" processados pelos nós:
Linux: Computação Distribuída com TORQUE Resource Manager


Página anterior     Próxima página

Páginas do artigo
   1. O que é o TORQUE?
   2. Instalação e configuração - I
   3. Instalação e configuração - II
   4. Testes dos cluster
   5. Revisão
Outros artigos deste autor

Configurando o proftpd com autenticação de usuário pelo passwd

Computação Distribuída com TORQUE Resource Manager - Parte 2

A essência de ser Livre

Leitura recomendada

Gerando arquivos PDF em modo texto

Usando webcam no Ubuntu Linux

Instalação automatizada de servidores com Kickstart (parte 2)

Servidor de monitoramento Nagios

Acessando os celulares Motorola no Linux

  
Comentários
[1] Comentário enviado por leodamasceno em 28/08/2013 - 13:45h

Muito interessante. Tenho total interesse em testar essa ferramenta. Parabens pelo artigo.

[2] Comentário enviado por edul0pes em 29/08/2013 - 15:56h

Parabéns pelo artigo.

[3] Comentário enviado por gnumoksha em 02/09/2013 - 13:41h

Interessante. Obrigado pelo artigo.

Em tempo, por que tanta memoria swap?

[4] Comentário enviado por juno em 02/09/2013 - 17:12h

Olá amigo tobiasgnu,
O motivo de ter a memória extensa é para precaver os nós de travarem pois rodamos um programa de reconhecimento de fala que ocupa 100% da memória física em quanto carrega.


[5] Comentário enviado por fabiofima em 08/04/2016 - 13:30h

Olá, primeiramente, obrigado pelo tutorial, como sempre desse site, muito bem explicado e didático.
Instalei o toque no nosso cluster aqui, tal contendo 1 head node e 6 slaves. A instalação e configuração deu tudo certo, o pbsnodes -a mostra corretamente os nodos, em estado "free". Se submeto um submitionfile.sh com um comando básico, como por exemplo wget ou uma sequencia de locates, ele consegue escalonar o job, executa, ficando em R no qstat até acabar e finaliza... Mas quando submeto uma execução de um software que usamos aqui chamado Gromacs, que tem instalado em todos os slave nodes, ele vai para estado E e C no qstat, sem deixar nenhum log, erro, output, nada... Nem no "Torque/serv_logs"... Se executo o mesmo comando, localmente no nodo, sem usar o torque, ele executa e fica correto como precisava ser.
Alguém poderia me ajudar? Não forneci mais informações porque não sei nem achar qual é o erro.
Obrigado desde já!!!


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts