processar Lynx.pl

Publicado por Fábio Berbert de Paula 13/11/2002

[ Hits: 4.422 ]

Homepage: https://fabio.city

Download processarLynx.zip




Script usado para extrair todos os links e imagens contidos no código HTML
de determinada URL. O navegador lynx é usado no auxílio da tarefa, ou melhor,
ele que processa os links, nós apenas formatamos a saída :)

  



Esconder código-fonte

#!/usr/bin/perl
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# processarLynx.pl
#
# Script usado para extrair todos os links e imagens contidos 
# no código HTML de determinada URL. O navegador lynx é usado no
# auxílio da tarefa, ou melhor, ele que processa os links, nós
# apenas formatamos a saída :)
# 
# Requisitos:
#             * lynx
#
#
#
# Programado por Fábio Berbert de Paula <fabio@vivaolinux.com.br>
# Na web em: www.vivaolinux.com.br
#
# Rio de Janeiro, 24 de Julho de 2002
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

use strict;

my $lynx = '/usr/bin/lynx';

my $url = shift;
if (!$url) {
   print "Você precisa informar uma URL !\nUse: $0 endereco_da_pagina\n\n";
   exit(0);
}

my $addlink = 0;
my $out = `$lynx -dump -image_links $url`;

foreach my $linha (split(/\n/,$out)) {
  # se a linha iniciar com a string Referências ou References
  if ( $linha =~ /^(Referências|References)/ ) { $addlink = 1; }
  # pule para o próximo enquanto não chegarmos a parte que mostra os links
  if (!$addlink) { next; }
  # remova os espaços em branco do início da linha
  do {} while ($linha =~ s/^ //);
  # expressão regular para pegar apenas o link processado
  if ($linha !~ /^[0-9]{1,5}\. (.*)$/) { next; }
  print $1 . "\n";
}

Scripts recomendados

Web crawler simples em Perl

Tweetin - Poste tweets pelo terminal

Burlando o "Protetor de links" INVERTIDO para download grátis

Pesquisar palavras no Diário Oficial da União

Sarg Semanal


  

Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts