Enviado em 19/04/2016 - 08:46h
Bom dia galera,
Venho quebrando a cabeça ultimamente, talvez alguém aqui possa me ajudar.
Criei um robô em shell para download de conteúdos num website. Consigo baixar normalmente, até aí tudo bem.
O problema é que, os arquivos nos links, possuem nomes aleatórios (ex: adfRfgg.PDF / 67JJke3d.PNG).
E ficam com este nome após o download. Faço a renomeação manualmente, mas quero automatizar.
Eu faço a lapidação da página com sed e grep até chegar nestes resultados:
Resultado1)
arquivoA - somente os links
arquivoB - somente os nomes
Neste caso, estão na mesma ordem. O link da 1ª linha no arquivoA, corresponde ao nome correto do arquivo na 1ª linha do arquivoB.
Resultado2)
Consigo gerar um único arquivo, com o link e nome sequencialmente:
arquivoC
Linha1 - LINK_A_xv56Ui990.PDF
Linha2 - NOME_CORRETO_ARQUIVO_A.PDF
Linha3 - LINK_B_p003ERT5x.PNG
Linha4 - NOME_CORRETO_ARQUIVO_B.PNG
...
Vamos a minha loucura:
Queria fazer o download do link com o nome correto.
Consigo jogar o output do wget numa varíavel e ela consultar o outro arquivo de forma var=$(var+1) ?
Ou então, no arquivo único, fazer o download da linha 1, com nomenclatura que estiver na linha 2. Depois download da linha 3, com nomenclatura da linha 4.
Acho que consegui expressar a dúvida do meu "quebra-cabeças".
Se alguém tem uma idéia de como fazer este esquema, agradeço.
Venho quebrando a cabeça ultimamente, talvez alguém aqui possa me ajudar.
Criei um robô em shell para download de conteúdos num website. Consigo baixar normalmente, até aí tudo bem.
O problema é que, os arquivos nos links, possuem nomes aleatórios (ex: adfRfgg.PDF / 67JJke3d.PNG).
E ficam com este nome após o download. Faço a renomeação manualmente, mas quero automatizar.
Eu faço a lapidação da página com sed e grep até chegar nestes resultados:
Resultado1)
arquivoA - somente os links
arquivoB - somente os nomes
Neste caso, estão na mesma ordem. O link da 1ª linha no arquivoA, corresponde ao nome correto do arquivo na 1ª linha do arquivoB.
Resultado2)
Consigo gerar um único arquivo, com o link e nome sequencialmente:
arquivoC
Linha1 - LINK_A_xv56Ui990.PDF
Linha2 - NOME_CORRETO_ARQUIVO_A.PDF
Linha3 - LINK_B_p003ERT5x.PNG
Linha4 - NOME_CORRETO_ARQUIVO_B.PNG
...
Vamos a minha loucura:
Queria fazer o download do link com o nome correto.
Consigo jogar o output do wget numa varíavel e ela consultar o outro arquivo de forma var=$(var+1) ?
Ou então, no arquivo único, fazer o download da linha 1, com nomenclatura que estiver na linha 2. Depois download da linha 3, com nomenclatura da linha 4.
Acho que consegui expressar a dúvida do meu "quebra-cabeças".
Se alguém tem uma idéia de como fazer este esquema, agradeço.