processar Lynx.pl

Publicado por Fábio Berbert de Paula 13/11/2002

[ Hits: 4.883 ]

Homepage: https://www.instagram.com/alexabolada/

Download processarLynx.zip




Script usado para extrair todos os links e imagens contidos no código HTML
de determinada URL. O navegador lynx é usado no auxílio da tarefa, ou melhor,
ele que processa os links, nós apenas formatamos a saída :)

  



Esconder código-fonte

#!/usr/bin/perl
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# processarLynx.pl
#
# Script usado para extrair todos os links e imagens contidos 
# no código HTML de determinada URL. O navegador lynx é usado no
# auxílio da tarefa, ou melhor, ele que processa os links, nós
# apenas formatamos a saída :)
# 
# Requisitos:
#             * lynx
#
#
#
# Programado por Fábio Berbert de Paula <fabio@vivaolinux.com.br>
# Na web em: www.vivaolinux.com.br
#
# Rio de Janeiro, 24 de Julho de 2002
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

use strict;

my $lynx = '/usr/bin/lynx';

my $url = shift;
if (!$url) {
   print "Você precisa informar uma URL !\nUse: $0 endereco_da_pagina\n\n";
   exit(0);
}

my $addlink = 0;
my $out = `$lynx -dump -image_links $url`;

foreach my $linha (split(/\n/,$out)) {
  # se a linha iniciar com a string Referências ou References
  if ( $linha =~ /^(Referências|References)/ ) { $addlink = 1; }
  # pule para o próximo enquanto não chegarmos a parte que mostra os links
  if (!$addlink) { next; }
  # remova os espaços em branco do início da linha
  do {} while ($linha =~ s/^ //);
  # expressão regular para pegar apenas o link processado
  if ($linha !~ /^[0-9]{1,5}\. (.*)$/) { next; }
  print $1 . "\n";
}

Scripts recomendados

Web crawler simples em Perl

IPloc - Informações e localização de um determinado endereço IP

WordPress Plugin check

VimeoTheSapo -Baixe videos do Vimeo e do sapo

Obtendo o IP público (Internet) usando o Perl


  

Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts