Script que obtém informações disponibilizadas a bots pelos sites

Publicado por Renato Alencar (última atualização em 05/02/2014)

[ Hits: 5.209 ]

Download getrobots.py




O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.

O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/

Uso:

$ ./getrobots.py <URL>

  



Esconder código-fonte

#!/usr/bin/python
# -*- coding: utf-8 -*-

# Baixa o arquivo robots.txt do site dado como parametro
#
# O arquivo robots.txt contem definições para bots que acessam o site
# é usado por exemplo pelo bot de pesquisa do Google.

# É necessario o pacote httplib2 para se conectar
import httplib2

import sys

# Faz a requisição HTTP e obtem o arquivo
def getRobot(site):
    # TODO: Criar rotina de validação

    client = httplib2.Http()
    response = client.request('http://%s/robots.txt' % site)

    # Retorna o objeto response
    return response

def main():
    if len(sys.argv) < 2:
        raise Exception, "Use: %s <site>" % sys.argv[0]

    r = getRobot(sys.argv[1])
    if r[0]['status'] <> '200':
        raise Exception, "CODE %s" % r[0]['status']
    print r[1]

if __name__ == '__main__':
    main()

Scripts recomendados

Previsão do Tempo

Downloader modo texto - Python 3

Script em Python 3.6 conectando em um API real da web

navegador ftp

IPgetter


  

Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts