Linux slogan
Visite também: BR-Linux.org · Dicas-L · NoticiasLinux · SoftwareLivre.org · UnderLinux · BestLinux



» Screenshot
Linux: UNR 9.10 Karmic Koala
Por pinduvoz
» Login
Login:
Senha:

Se você ainda não possui uma conta, clique aqui.

Esqueci minha senha

» Wallpaper
Linux: Linux TAG
Por h4sh


Artigo

Detonando robots!
Linux user
removido
28/03/2005
A muito tempo tempo se fala dos "Google hacks", mas o que não é divulgado é como evitar que o Google e outros sistemas de busca disponibilizem informações e/ou arquivos que não sejam interessantes para seu site.
Por: Perfil removido
[ Hits: 10865 ]
Conceito: 9.8   3 voto(s)3 voto(s)3 voto(s)3 voto(s)3 voto(s) + quero dar nota ao artigo

O que é?

Atualmente, salvo raras exceções, não se fazem cadastro em sites de busca, eles são automaticamente descobertos por programas conhecidos como "Robots".

Quem trabalha com firewalls ou monitora os dados que são requisitados em seu site já deve ter encontrado alguns deles e pode não tê-los reconhecido. Além disso nem sempre é vantagem ter seu conteúdo indexado por um buscador, pois informações confidencias podem ser divulgadas, scripts vulneráveis encontrados, entre outros tantos problemas.

Considerações iniciais


Robots: Robôs de busca ou "Robots" são programas que varem sites e automaticamente disponibilizam todo conteúdo/arquivos que for encontrado e que for "permitido" listar. Exemplos: Google-Bot, AllTheWeb.

Podem ser conhecidos também como "Spiders", "Web Crawlers", "Worms" ou "Ants".

Robots podem ser usados para coletar e-mails (Spiders) e outras informações ou simplesmente para servir a um search engine.

Buscador (search engine): Esse é o indexador do robô de busca. Ele disponibiliza o conteúdo conforme uma string solicitada. Exemplo: Google.

Agentes


Agentes autônomos - ( Autonomous agents ): São programas que circulam entre sites e tomam decisões do que fazer sozinhos, isso só é possível em servidores especiais, não são muito comuns.

Agentes Inteligentes - ( Intelligent agents): Utilizados para auxiliar os usuários a tomarem decisões, propagandas de contextos etc.

Agente de Usuário - ( User-agent ): É o agente utilizado por programas que realizam tarefas para um usuário, como IE, NS, Firefox, Outlook. Exemplo: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0), esse é o user-agent do IE 6 com Windows 2000.

Próxima página >>


Páginas do artigo
   1. O que é?
   2. Bloqueando robots
   3. Considerações finais

Outros artigos deste autor

Leitura recomendada

Comentários
[1] Comentário enviado por null_terminated em 29/03/2005 - 07:48h:

Muito Bom!

Muito legal seu artigo, trouxe a luz uma fissura na segurança pessoal desconhecida por muitos!

[]'s

[2] Comentário enviado por ctrlc em 29/03/2005 - 09:26h:

Excelente artigo.. este mês eu iria atras dele. Acho ate legal o VOL usar na parte sobre nos. O nosso perfil!

[3] Comentário enviado por mrspy em 29/03/2005 - 09:42h:

Isso mostra como somos vuneraveis até em páginas de internet.

Esse artigo é bom porque no meu caso eu vou poder proteger a página da minha empresa na internet e que em algum lugares há documentos sigilosos.

[4] Comentário enviado por Grobsch em 29/03/2005 - 12:02h:

Estava ontem mesmo pesquisando sobre isto... Caiu do céu...
Parabéns pelo artigo...

[5] Comentário enviado por neriberto em 29/03/2005 - 13:13h:

Ótimo, excelente :)

[6] Comentário enviado por leysen em 29/03/2005 - 16:58h:


Foi um dos melhores artigos que já li sobre o assunto e pode ser usado como guia de consulta rápido.

[7] Comentário enviado por agk em 29/03/2005 - 16:58h:

Ótimo artigo, parabéns.

[8] Comentário enviado por fabrizmat em 30/03/2005 - 16:16h:

Muito bom! parabéns!!!

[9] Comentário enviado por paulobarra em 30/03/2005 - 22:29h:

seu artigo é muito bom.

Como podemos criar um spider ?
Vc conhece algum spider free?

Obrigado

Valeu

[10] Comentário enviado por Hernando em 03/05/2005 - 12:10h:

Parabens geralmente eu uso o google para testar falhas pois se o cara souber usar a busca avançada do google ele tem acesso total a conteudos restritos...

[11] Comentário enviado por _m4n14c_ em 01/06/2007 - 18:50h:

Camaradas, em tempo de lembra-los: o arquivo robots.txt e as metatags sao lidos e utilizados pelo robot e nao pelo servidor, bem como a informacao do user-agent tb eh fornecida pelo robot.

As configuracoes citadas no artigo funcionam bem para crawlers "bonzinhos", mas nao oferece seguranca alguma contra programas que enviam user-agent's falsos ou ignoram as instrucoes do robots.txt. A melhor politica de seguranca eh nao tornar documentos sigilosos publicamente acessiveis, exceto se forem devidamente protegidos por senha e preferencialmente servidos sobre https.



[12] Comentário enviado por Teixeira em 20/10/2007 - 20:20h:

Muito embora no momento eu pretenda exatamente o contrário, isto é, dar maior visibilidade às minhas páginas atuais, a dica é muito valiosa para proteger dados. Vou guardá-la para alguma necessidade futura.
Parabéns!


Contribuir com comentário
  
Para executar esta ação você precisa estar logado no site, caso contrário, tudo o que for digitado será perdido.
Responsável pelo site: Fábio Berbert de Paula - Copyleft 2002-2009 Viva o Linux.com.br

Viva o Linux

A maior comunidade Linux da América Latina! Artigos, dicas, tutoriais, fórum, scripts e muito mais. Ideal para quem busca auto-ajuda em Linux.