wget - Comando para baixar imagens sequenciais de uma página

Publicado por Xerxes em 09/09/2013

[ Hits: 21.030 ]

Blog: https://static.vivaolinux.com.br/imagens/dicas/comunidade/300.jpg

 


wget - Comando para baixar imagens sequenciais de uma página



Por qualquer motivo, talvez você queira baixar TODAS as imagens sequenciais de uma página. Esta dica ensina como.

Primeiramente, você precisa fuçar o código fonte da página para encontrar o caminho das imagens.

No Firefox, basta ir em: Ferramentas → Desenvolvedor Web → Código-fonte

Como exemplo, usarei a seguinte página:
É uma página sobre um jogo bem legal de cartas. As cartas são bonitas.

Após abrir o código fonte da página, eu procuro por ".jpg" ou ".png", ou algo assim.
Linux: Comando para baixar imagens sequenciais de uma página

Isso vai variar de página para página. Neste exemplo, encontrei o caminho para TODAS as imagens no diretório "/cards/" e vi que as cartas estão divididas em dois tipos:
  • As que começam com: "ex"
  • E as que começam com: "se"

Seguidos de um número correspondente à carta. Exemplo:
Olhando na página, podemos notar que as cartas que começam com "se" são numeradas de 001 até 200, e as cartas que começam com "ex", estão numeradas de 001 até 150.

Sendo assim, você pode baixar a primeira lista de imagens com o comando:

wget http://shadowera.com/cards/se{001..200}.jpg

E a segunda lista, com o comando:

wget http://shadowera.com/cards/ex{001..150}.jpg

O wget, sozinho, fará o laço necessário para puxar as imagens sequenciais.

Por fim, você terá todas as imagens.
Linux: Comando para baixar imagens sequenciais de uma página

Abraço!

Outras dicas deste autor

Teclado abnt2 no Void pelo Xorg

Som apenas em um aplicativo por vez?

Montar dispositivo Android no Funtoo

Fontes feias no Firefox da distro Funtoo [Resolvido]

Steam no Debian Wheezy

Leitura recomendada

Alterando pasta padrão /var/www para pasta no Apache 2 (Debian 8)

Abrindo imagens via linha de comando

Usando nmap para rastrear o Kazaa na rede

Ajustando Data e Hora no Gentoo/Calculate

Ativar tecla Num Lock na inicialização do Linux

  

Comentários
[1] Comentário enviado por vanderlei_andre em 05/10/2013 - 23:04h

Cara muito bom ! era o que eu tava a muito tempo procurando ! mas será que você pode me dar uma ajuda aqui ? é o seguinte vou no site http://centraldemangas.com.br/online/naruto/001#1">http://centraldemangas.com.br/online/naruto/001#1 onde 001 é o capitulo do mangá e 1 é a pagina, gostaria de usar esse comando pra baixar as paginas desse capitulo da pagina 1 a 53 usei o seguinte comando:
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
[email protected]:~$ wget http://mangas.centraldemangas.com.br/naruto/naruto001-{1..53}.jpg
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
porém ele não baixa as imagens mas o html da pagina, no terminal aparece assim:
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Conectando-se a mangas.centraldemangas.com.br|199.189.86.12|:80... conectado.
A requisição HTTP foi enviada, aguardando resposta... 302 Moved Temporarily
Localização: http://centraldemangas.com.br [redirecionando]
--2013-10-05 22:52:15-- http://centraldemangas.com.br/
Conectando-se a centraldemangas.com.br|69.64.48.227|:80... conectado.
A requisição HTTP foi enviada, aguardando resposta... 200 OK
Tamanho: não especificada [text/html]
Salvando em: “naruto001-3.jpg”
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
se puder dar uma força eu agradeço !


[2] Comentário enviado por xerxeslins em 06/10/2013 - 00:40h

Olá amigo,

nesse caso o site redireciona a página.

Mas você pode baixar as imagens usando seguinte comando:

wget --referer=http://www.centraldemangas.com.br/index.php http://mangas.centraldemangas.com.br/naruto/naruto001-{01..53}.jpg

Bastou perceber que era redirecionado para a página inicial. A forma de resolver é usando o "--referer"

Referência: http://stackoverflow.com/questions/11389933/how-to-fix-wget-download-file-name-when-the-url-is-redir...

[3] Comentário enviado por vanderlei_andre em 09/10/2013 - 08:05h

Muito obrigado Xerxes Lins você não imagina quanto tempo eu tava procurando uma solução assim. usei o comando que você mostrou acima:
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
wget --referer=http://www.centraldemangas.com.br/index.php http://mangas.centraldemangas.com.br/naruto/naruto001-{01..53}.jpg
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
porém ele baixava outra imagem que dizia que havia ocorrido um erro 404 e bla bla bla, dai foi só acrescentar robots=off que ele baixou as imagens que eu queria, o comando ficou assim:
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
[email protected]:~$ wget --referer =http://www.centraldemangas.com.br/index.php http://mangas.centraldemangas.com.br/naruto/naruto001-{01..53}.jpg robots=off
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Mais uma vez obrigado amigo.

[4] Comentário enviado por xerxeslins em 09/10/2013 - 08:13h

Blz! Valeu!



Contribuir com comentário