Na imagem abaixo, consta o fluxo realizado pelo nosso sistemas.
1) Na primeira parte é a que solicitamos que o script "start.sh" inicie solicitando que a lista de sites contidos em si sejam analisados pelo script "imageDetector.py", onde o mesmo irá via requisição verificar se o site se encontra disponível, partindo disso via biblioteca beautifulsoup do Python.
2) Nesta parte, utilizamos da biblioteca citada acima, para fazer a parte de coleta das imagens contidas no site, está que é uma biblioteca já pronta para este tipo de extração.
3) Na terceira parte do fluxo, o script "imageDetector.py" envia via parâmetro as URLs das imagens do site analisado para o terceiro script chamado "detect.py" que é responsável por se comunicar com a API do Cloud Vision do Google e a partir dai nos trazer os resultados da imagens analisadas.
4) Nesta parte recebemos as informações da imagem analisada, que por sua vez é feita pelo filtro "labels" do Cloud Vision, nos informando todas informações encontradas naquela imagem.
5) Aqui fazemos a coleta das informações contidas na análise, ou seja é aqui que vemos se na imagem contém similaridade com o logo de Bancos, palavras chaves como banco, banking ou até mesmo se contém o nome do próprio banco, como no exemplo abaixo, onde analisamos um logo do Bradesco.
Análise de um logo do Bradesco utilizando o filtro "Labels" da API do Google Cloud Vision.
Fonte: arquivo pessoal
6) Por fim, nesta parte é que mostramos para o resultado da análise caso ele seja compatível com o filtro de apliquemos,Podemos por exemplo mostrar os resultados apenas quando forem encontrados na análise da imagem palavras chave como as usadas neste estudo:
'Bradesco','Santander','banking','agência','conta','Itaú','IQ','banco', 'seguro','bank'.