Extraindo Dados de Sites da Internet pelo Terminal

Publicado por Mauricio Ferrari em 15/09/2020

[ Hits: 468 ]

Blog: http://linguagemcfacil.mozello.com/

 


Extraindo Dados de Sites da Internet pelo Terminal



Resolvi fazer essa dica porque é difícil encontrar um conteúdo tão simples como esse na internet. Com certeza é um recurso pouco usado e portanto, não muito divulgado.

Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.

Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.

Sua utilização é muito simples:

w3m -dump https://www.google.com.br/

Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.

Aí você faz a exportação dessa forma:

w3m -dump https://www.google.com.br/ >> conteudo

Agora vamos visualizar o arquivo conteúdo:

cat conteudo
Pesquisa Imagens Maps Play YouTube Notícias Gmail Drive Mais »
Histórico da Web | Configurações | Fazer login

                                    Google

             [                                                       ]    Pesquisa
                        [Pesquisa Google] [Estou com sorte]            avançada

                    Disponibilizado pelo Google em: English
   Soluções de publicidade     Soluções empresariais     Sobre o Google
                                 Google.com.br

                         © 2020 - Privacidade - Termos

E assim, fica mais uma dica.

Outras dicas deste autor

Gambiarra para Atualizar o Menu de Aplicativos no KDE

makepkg - ERROR: Can't make output package in current directory [Resolvido]

Extraindo Arquivos de Pacote de Tema do Windows (themepack) no Linux

uGet no Linux Mint 20 com suporte a Torrent

Exibindo o nome completo dos pacotes instalados no Debian e derivados

Leitura recomendada

Logando como root

Instalar ou Remover Múltiplos pacotes no Void Linux

Alguns comandos pkg no FreeBSD

Gnome/KDE: Sistema não loga ou efetua logoff em 10 segundos (ERRO no .ICEauthority)

Instalando o Helper e o Handbrake 0.9.5 no Ubuntu 10.10

  

Comentários
[1] Comentário enviado por cezargaiteiro em 15/09/2020 - 14:04h

Muito interessante, parabéns pela dica!

[2] Comentário enviado por mauricio123 em 15/09/2020 - 19:48h


Valeu.

___________________________________________________________
[code]Conhecimento não se Leva para o Túmulo.
https://github.com/MauricioFerrari-NovaTrento [/code]



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts