01 02

comando para retirar tags html de pagina e caracteres[RESOLVIDO]

1. comando para retirar tags html de pagina e caracteres[RESOLVIDO]

dark777
(usa Debian)

Enviado em 02/06/2016 - 21:39h

Pessoal eu estava procurando por ums livros aqui e acabei encontrando este site abaixo:
http://www.tldp.org/HOWTO/pdf/

porem para nao ficar baixando pdf por pdf baixei a pagina entao ele salvou um arquivo html como esta abaixo até entao tudo bem mas tem como fazer alguma coisa pra limpar essas tags e strings inuteis deixando somente os links para que eu possa fazer um comando wget -i howto.html?

<li><a href="http://www.tldp.org/HOWTO/pdf/Chroot-BIND8-HOWTO.pdf">Chroot-BIND8-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Chroot-BIND-HOWTO.pdf">Chroot-BIND-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Cipe+Masq.pdf">Cipe+Masq.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Clock.pdf">Clock.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Clone-HOWTO.pdf">Clone-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Cluster-HOWTO.pdf">Cluster-HOWTO.pdf</a></li>

1 0

Quote

2. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

SirCode
(usa Ubuntu)

Enviado em 02/06/2016 - 21:46h

Substitua tudo por:
http://www.tldp.org/HOWTO/pdf/Chroot-BIND8-HOWTO.pdf
http://www.tldp.org/HOWTO/pdf/Chroot-BIND-HOWTO.pdf
http://www.tldp.org/HOWTO/pdf/Cipe+Masq.pdf
http://www.tldp.org/HOWTO/pdf/Clock.pdf
http://www.tldp.org/HOWTO/pdf/Clone-HOWTO.pdf
http://www.tldp.org/HOWTO/pdf/Cluster-HOWTO.pdf

XD simplismente fiz o trabalho duro/mole

0 1

Quote

3. Re: comando para retirar tags html de pagina e caracteres[DUVIDA]

removido
(usa Nenhuma)

Enviado em 02/06/2016 - 22:23h

dark777 escreveu:

Pessoal eu estava procurando por ums livros aqui e acabei encontrando este site abaixo:
http://www.tldp.org/HOWTO/pdf/

porem para nao ficar baixando pdf por pdf baixei a pagina entao ele salvou um arquivo html como esta abaixo até entao tudo bem mas tem como fazer alguma coisa pra limpar essas tags e strings inuteis deixando somente os links para que eu possa fazer um comando wget -i howto.html?

<li><a href="http://www.tldp.org/HOWTO/pdf/Chroot-BIND8-HOWTO.pdf">Chroot-BIND8-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Chroot-BIND-HOWTO.pdf">Chroot-BIND-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Cipe+Masq.pdf">Cipe+Masq.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Clock.pdf">Clock.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Clone-HOWTO.pdf">Clone-HOWTO.pdf</a></li>
<li><a href="http://www.tldp.org/HOWTO/pdf/Cluster-HOWTO.pdf">Cluster-HOWTO.pdf</a></li>

Tente com :

1 - Para filtrar apenas as URL's:



cut -d "\"" -f 2   arquivo-atual > arquivo-novo-urls.txt

2 - Download:



wget -c -i  arquivo-novo-urls.txt

--> Mas eu ainda usaria a extensão DownThemAll! para o firefox. Além de um excelente gerenciador de downloads, ela lhe permite fazer download de múltiplos arquivos em uma mesma pagina, inclusive filtrando por alguma expressão regular. Como o *.pdf no seu caso.
https://addons.mozilla.org/pt-br/firefox/addon/downthemall/

------------------------------------------------------
KISS principle, RTFM and STFW = 42

2 0

Quote

4. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

removido
(usa Nenhuma)

Enviado em 02/06/2016 - 23:14h

Eu de um tempo para cá tenho feito isto com o lynx. Opção -dump.
Ao final da saída do dump aparecem todas as ligações href limpas sem as tags.
O único senão é que elas aparecem numeradas em ordem.
Mas estes números seguem um padrão perfeitamente limpáve com o sed.

lynx -dump www.site.com.br/index.html | egrep -i '\s+[ 1][0-9]\. ' | sed -r 's/\s+[ 1][0-9]\. //g' | while read i; do wget -c -t 0 -r -x -k -p -np "$i"; done

Eu montei o comando acima passo a passo
A ele pode ser adicionado um egrep "\.pdf$" ou somar esta regex ao final do egrep do comando para pegar apenas as linhas que iniciam com números e terminam com a string pdf.
Eu executo este miniscript diretamente na linha de comando.
Depois que passei a usar lynx ficou menos trabalhoso.

----------------------------------------------------------------------------------------------------------------

# apt-get purge systemd (não é prá digitar isso!)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden

4 0

Quote

5. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

dark777
(usa Debian)

Enviado em 04/06/2016 - 19:09h

nenhum dos comandos acima deu certo eu fiz isso:

sed -i 's/<li><a href="//g' arquivo

ele retirou todos haref até as aspas: ficando assim:

http://www.tldp.org/HOWTO/pdf/Chroot-BIND8-HOWTO.pdf">Chroot-BIND8-HOWTO.pdf</a>;

agora tenho que achar um jeito de remover tudo o que estiver depois das aspas duplas....

0 0

Quote

6. Re: comando para retirar tags html de pagina e caracteres[DUVIDA]

ctw6av
(usa Nenhuma)

Enviado em 04/06/2016 - 19:43h

Não tem segredo:

cat lista | sed 's/.*="//; s/">.*//'

.* <=> coringa é tudo antes do sinal =" juntamente com ele.
.* <=> coringa é tudo depois do sinal "> juntamente com ele.

restando somente os links, não gosto muito de expressões regulares acho feio este bolo de caracteres affh



=====================================================================

Não existe saber mais ou saber menos, existem saberes diferentes.

=====================================================================

1 0

Quote

7. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

removido
(usa Nenhuma)

Enviado em 04/06/2016 - 19:49h

Passei o comando, mas era prá pensar.

Analise a saída de

lynx -dump http://www.tldp.org/HOWTO/pdf/

e veja ao fim do documento saírem limpos os links de PDFs.

Depois é só usar GREP/SED.

Se não tiver lynx será necessário instalar. É um navegador de sites via terminal.

----------------------------------------------------------------------------------------------------------------
Nem direita, nem esquerda. Quando se trata de corrupção o Brasil é ambidestro.
(anônimo)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden[/quote]

2 0

Quote

8. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

removido
(usa Nenhuma)

Enviado em 04/06/2016 - 20:00h

Acabei de testar.

Se você tiver o lynx instalado irá funcionar.

lynx -dump http://www.tldp.org/HOWTO/pdf/ | egrep -i '^\s+[0-9]+\. .+\.pdf$' | sed -r 's/^\s+[0-9]+\. //g' | while read i; do wget -c -t 0 -r -x -k -p -np "$i"; done

----------------------------------------------------------------------------------------------------------------
Nem direita, nem esquerda. Quando se trata de corrupção o Brasil é ambidestro.
(anônimo)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden[/quote]

2 0

Quote

9. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

dark777
(usa Debian)

Enviado em 05/06/2016 - 02:26h

listeiro_037 escreveu:

Acabei de testar.

Se você tiver o lynx instalado irá funcionar.

lynx -dump http://www.tldp.org/HOWTO/pdf/ | egrep -i '^\s+[0-9]+\. .+\.pdf$' | sed -r 's/^\s+[0-9]+\. //g' | while read i; do wget -c -t 0 -r -x -k -p -np "$i"; done

----------------------------------------------------------------------------------------------------------------
Nem direita, nem esquerda. Quando se trata de corrupção o Brasil é ambidestro.
(anônimo)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden

[/quote]

eu tenho o lynix instalado porem neste caso eu baixaria o site inteiro pois quero somente os pdf..!!!

1 0

Quote

10. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

dark777
(usa Debian)

Enviado em 05/06/2016 - 02:43h

ctw6av escreveu:

Não tem segredo:

cat lista | sed 's/.*="//; s/">.*//'



=====================================================================

Não existe saber mais ou saber menos, existem saberes diferentes.

=====================================================================

Valeu pela força ai parceiro foi muito boa essa sua dica, estou criando uns scripts personalizados para pegar algumas informaçoes do SO, personalizar o bash e estava pensando em fazer um perfil de bash totalente otimizado para administração e desenvolvimento... vamos ver estou indo devagar nisso pois tenho que testar com eficacia e eficiencia cada função e comando.....

2 0

Quote

11. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

removido
(usa Nenhuma)

Enviado em 05/06/2016 - 03:03h

dark777 escreveu:

eu tenho o lynix instalado porem neste caso eu baixaria o site inteiro pois quero somente os pdf..!!!
[/quote]

Você ao menos testou?

Aqui eu baixei apenas os PDFs.

Eles ficarão no caminho www.tldp.org/HOWTO/pdf/

Você pode alterar os parâmetros do comando wget se quiser. Já pensou nisto?

----------------------------------------------------------------------------------------------------------------
Nem direita, nem esquerda. Quando se trata de corrupção o Brasil é ambidestro.
(anônimo)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden[/quote]

1 0

Quote

12. Re: comando para retirar tags html de pagina e caracteres[RESOLVIDO]

dark777
(usa Debian)

Enviado em 05/06/2016 - 18:08h

listeiro_037 escreveu:

dark777 escreveu:

eu tenho o lynix instalado porem neste caso eu baixaria o site inteiro pois quero somente os pdf..!!!

Você ao menos testou?

Aqui eu baixei apenas os PDFs.

Eles ficarão no caminho www.tldp.org/HOWTO/pdf/

Você pode alterar os parâmetros do comando wget se quiser. Já pensou nisto?

----------------------------------------------------------------------------------------------------------------
Nem direita, nem esquerda. Quando se trata de corrupção o Brasil é ambidestro.
(anônimo)

Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden[/quote][/quote]

sim até deixei baixando durante ums trinta minutos para ver porem quando fui ver a pasta que ele criou ele estava baixando o site inteiro...

0 0

Quote