Raspagem de dados

1. Raspagem de dados

marconso
marconso

(usa XUbuntu)

Enviado em 23/08/2017 - 12:03h

Boa tarde galera... Nao estou conseguindo coletar a ausencia de dados dentro de umas <td> no meu programa
to usando beautifulsoup

segue o codigo

#!/usr/bin/python3
import pandas as pd
from bs4 import BeautifulSoup
import requests
import pandas as pd

gid = []
cidade = []
lista = pd.read_csv('/home/fabio/Downloads/Nova_lista.csv')

for i in lista['gid']:
gid.append(i)

for p in lista['nome']:
cidade.append(p)

link = ('http://iridl.ldeo.columbia.edu/SOURCES/SOURCES/.USGS/.LandDAAC/.MODIS/.1km/.8day/.version_005/.Terra/.NSA/.Day/.LST/T/(Jan%202001)/(Mar%202015)/RANGE/X/-82/-34/RANGEEDGES/Y/-38.0/12.0/RANGEEDGES/T/monthlyAverage/home/.jdcorral/.Brazil/.mun_2016_03_21/.the_geom/gid/GID/VALUE/%5BX/Y%5Dweighted-average/T+exch+table-+text+text+skipanyNaN+-table+.html')


with open('df_temp_day.csv' , 'a') as f:


for i in lista['gid']:

page = requests.get(link.replace('GID','%s'%i))
soup = BeautifulSoup(page.text,'lxml')
tabela = soup.find_all('table',text=False)


for td in tabela:
linha = td.find_all('td',text=False)

k = 0
p = 1
while k <= len(linha) and p <= len(linha):

mes = str(linha[k].get_text())
variavel = str(linha[p].get_text())
k +=2
p +=2
n = gid.index(i)
f.writelines('"%s", %s, "%s" ,"gid %s"\n' %(mes,variavel,cidade[n],i))

print('"%s", %s, %s %s' %(mes,variavel,cidade[n],i))



  


2. Re: Raspagem de dados

Lisandro Guerra
Lisandro

(usa Arch Linux)

Enviado em 24/08/2017 - 17:06h

Muito tempo que não vejo Beautiful.
Duas perguntas:
1) Viu que está importando pandas em duplicidade?
2) Tem certeza que a response é em XML?

Abraço


3. Re: Raspagem de dados

marconso
marconso

(usa XUbuntu)

Enviado em 24/08/2017 - 17:50h

Eu estava apenas seguindo um modelo e adaptando o que via até que percebi que tinha muita coisa preenchida no caso faltava os dados ausentes...






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts