É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

1. É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Tur1st4
(usa Deepin)

Enviado em 20/01/2019 - 20:45h

Opa, blz?

Antes peço desculpas por erros em falar sobre html, mas sou noob nessa linguagem até em Shell mas vamos lá ksks :v

Bem, começando do começo ksks
Estou criando um script para baixar vários arquivos sem precisar acessar cada página para baixar.
Mas essa pagina tem um "sistema" (não sei se é assim que se refere) de rolar o scroll e ela carrega outros elementos. Tipo o Youtube, quando vai rolando a página ele carrega outras sugestões.

Quando baixo pelo wget e manipulo o texto, só mostra os 30 elementos inciais da pagina... Os próximos que ainda vão ser carregados ele não mostra.
Fui em inspecionar elemento do Firefox, ele deixa os elementos a serem carregados em uma cor cinza no código, mas depois que carrega continua cinza. (Não sei se é uma informação útil mas vai que serve).
Agora se faço o mesmo no Chrome, ele mostra todos os elementos depois que rolo a pagina até o final .-.

E essa parte cinza não aparece no arquivo baixado pelo wget. (claro já que na manipulação do texto não mostrou)

Então as minhas perguntas são: Tem algum jeito de baixar a pagina com todos os "conteúdos ocultos"?
Ou tem como copiar os elementos do próprio inspecionar do google chrome? Tipo um Ctrl + A ; Ctrl + C .-. Testei mas não foi huehue

0 0

Quote

2. MELHOR RESPOSTA

pylm
(usa Gentoo)

Enviado em 07/03/2019 - 17:17h

Se você manjar de python então tem bastante material.

https://pythonhelp.wordpress.com/2016/10/22/extraindo-dados-de-paginas-baseadas-em-javascript-com-sc...

1 0

Quote

3. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a pági

paulo1205
(usa Ubuntu)

Enviado em 21/01/2019 - 09:32h

Se a página faz isso por meio de código em Javascript, você teria de interpretar esse código para saber como carregar os elementos que não estavam no conteúdo originalmente baixado.

Existem vários headless browsers (“navegadores” que executam sem necessariamente ter um usuário a guiá-lo através de uma tela), incluindo o Firefox e o Chrome operando em modo headless. Você teria de montar um script que faça com que o navegador desassistido faça o procedimento equivalente ao que o usuário teria de fazer para rolar a página.

Eu não tenho detalhes de como isso funciona, pois nunca usei tal recurso, e é provável que cada ferramenta headless tenha suas próprias características, que a tornem mais ou menos adequadas ao que você deseja. Você teria de testar.

... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)

1 0

Quote

4. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

paulo1205
(usa Ubuntu)

Enviado em 21/01/2019 - 10:08h

Pesquisando no Google por “simulate scrolling with a headless browser”, você vai receber vários links com exemplos prontos, que você poderá adaptar. Aparentemente, as ferramentas mais populares (a julgar pelos cinco primeiros links, que eu visitei) são o PhantomJS e o Google Chrome (com auxílio de outros, como Python e Node.js).

Como só você sabe o que quer e o que lhe atende melhor, recomendo que faça seus testes com base no caminho apontado.

... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)

0 0

Quote

5. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Tur1st4
(usa Deepin)

Enviado em 07/03/2019 - 15:48h

paulo1205 escreveu:

Se a página faz isso por meio de código em Javascript, você teria de interpretar esse código para saber como carregar os elementos que não estavam no conteúdo originalmente baixado.

Existem vários headless browsers (“navegadores” que executam sem necessariamente ter um usuário a guiá-lo através de uma tela), incluindo o Firefox e o Chrome operando em modo headless. Você teria de montar um script que faça com que o navegador desassistido faça o procedimento equivalente ao que o usuário teria de fazer para rolar a página.

Eu não tenho detalhes de como isso funciona, pois nunca usei tal recurso, e é provável que cada ferramenta headless tenha suas próprias características, que a tornem mais ou menos adequadas ao que você deseja. Você teria de testar.

... “Principium sapientiae timor Domini, et scientia sanctorum prudentia.” (Proverbia 9:10)

Tentei de todos os jeitos, mas não achei como fazer isso... A "solução" foi abrir cada página e copiar a URL, depois fiz o script para baixar os arquivos que contém neles...
Como não sei nada de JS não consegui achar a solução. Já que como você disse, teria que simular o scroll, só que como eu pegaria as novas informações... Já que um wget baixaria somente o inicial.

Mas obrigado pela ajuda!

0 0

Quote

6. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

msoliver
(usa Debian)

Enviado em 07/03/2019 - 17:04h

Tur1st4 escreveu:

Opa, blz?

Antes peço desculpas por erros em falar sobre html, mas sou noob nessa linguagem até em Shell mas vamos lá ksks :v

Bem, começando do começo ksks
Estou criando um script para baixar vários arquivos sem precisar acessar cada página para baixar.
Mas essa pagina tem um "sistema" (não sei se é assim que se refere) de rolar o scroll e ela carrega outros elementos. Tipo o Youtube, quando vai rolando a página ele carrega outras sugestões.

Quando baixo pelo wget e manipulo o texto, só mostra os 30 elementos inciais da pagina... Os próximos que ainda vão ser carregados ele não mostra.
Fui em inspecionar elemento do Firefox, ele deixa os elementos a serem carregados em uma cor cinza no código, mas depois que carrega continua cinza. (Não sei se é uma informação útil mas vai que serve).
Agora se faço o mesmo no Chrome, ele mostra todos os elementos depois que rolo a pagina até o final .-.

E essa parte cinza não aparece no arquivo baixado pelo wget. (claro já que na manipulação do texto não mostrou)

Então as minhas perguntas são: Tem algum jeito de baixar a pagina com todos os "conteúdos ocultos"?
Ou tem como copiar os elementos do próprio inspecionar do google chrome? Tipo um Ctrl + A ; Ctrl + C .-. Testei mas não foi huehue

Boa tarde Turista.
Pode ser que de para "pegar" os links no "código fonte" da página....
Se possível, poste a url e indique o que quer "pegar"

no aguardo.
marcelo oliver

0 0

Quote

Patrocínio

Site hospedado pelo provedor RedeHost.

Top 10 do mês

Xerxes
1° lugar - 141.120 pts
Fábio Berbert de Paula
2° lugar - 66.367 pts
Buckminster
3° lugar - 45.673 pts
Alberto Federman Neto.
4° lugar - 36.212 pts
Alessandro de Oliveira Faria (A.K.A. CABELO)
5° lugar - 23.450 pts
Sidnei Serra
6° lugar - 23.423 pts
edps
7° lugar - 23.207 pts
Daniel Lara Souza
8° lugar - 21.148 pts
Mauricio Ferrari (LinuxProativo)
9° lugar - 20.427 pts
Andre (pinduvoz)
10° lugar - 17.057 pts

Scripts

[Shell Script] imageDownloader

[Shell Script] Flatpak manager

[Shell Script] Renomador em lote feito em Zenity

[C/C++] Jogo do Labirinto no Terminal

[Shell Script] Status do teclado em qualquer ambiente gráfico com system tray no Linux

É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

1. É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

2. MELHOR RESPOSTA

3. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a pági

4. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

5. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

6. Re: É possível baixar uma pagina com todos os elementos que ainda vão ser carregados ao rolar a página?

Patrocínio

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts