Formatar arquivo de texto

1. Formatar arquivo de texto

Morpheus
Minions

(usa Nenhuma)

Enviado em 25/06/2022 - 16:55h


Tem como deixar assim?

20261270 Estrada Roquete Pinto
20531005 Rua Doutor Catrambi
20531010 Rua Ângelo dos Reis
20531020 Rua Caetano de Campos
20531030 Rua Custódio Correia
20531040 Rua Alves Câmara
20531050 Rua Ministro Viriato Vargas
20531060 Rua Marechal Pilsudski
20531073 Avenida Edison Passos até 1075 lado ímpar
20531074 Avenida Edison Passos até 1000 lado par
20531075 Avenida Edison Passos de 1002 a 2258 lado par
20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar
20531077 Avenida Edison Passos de 2087 ao fim lado ímpar
20531078 Avenida Edison Passos de 2260 ao fim lado par
20531080 Estrada Velha da Tijuca até 1169/1170
20531081 Estrada Velha da Tijuca de 1171/1172 ao fim
20531090 Rua Raimundo Castro Maia
20531100 Rua Tiumbi
20531110 Rua Juruato
20531120 Rua Eduardo Xavier
20531130 Largo São Camilo de Lellis
...



  


2. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 25/06/2022 - 18:05h

Minions escreveu:


Tem como deixar assim?

20261270 Estrada Roquete Pinto
20531005 Rua Doutor Catrambi
20531010 Rua Ângelo dos Reis
20531020 Rua Caetano de Campos
20531030 Rua Custódio Correia
20531040 Rua Alves Câmara
20531050 Rua Ministro Viriato Vargas
20531060 Rua Marechal Pilsudski
20531073 Avenida Edison Passos até 1075 lado ímpar
20531074 Avenida Edison Passos até 1000 lado par
20531075 Avenida Edison Passos de 1002 a 2258 lado par
20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar
20531077 Avenida Edison Passos de 2087 ao fim lado ímpar
20531078 Avenida Edison Passos de 2260 ao fim lado par
20531080 Estrada Velha da Tijuca até 1169/1170
20531081 Estrada Velha da Tijuca de 1171/1172 ao fim
20531090 Rua Raimundo Castro Maia
20531100 Rua Tiumbi
20531110 Rua Juruato
20531120 Rua Eduardo Xavier
20531130 Largo São Camilo de Lellis
...

Minions, boa noite.
Da próxima vez, poste em texto, fica mais fácil para ajudar . . . :)
Segue:
cat texto.txt
20261270 Estrada Roquete Pinto 20531005 Rua Doutor Catrambi 20531010 Rua Ângelo dos Reis 20531020 Rua Caetano de Campos 20531030 Rua Custódio Correia 20531040 Rua Alves Câmara 20531050 Rua Ministro Viriato Vargas 20531060 Rua Marechal Pilsudski 20531073 Avenida Edison Passos até 1075 lado ímpar 20531074 Avenida Edison Passos até 1000 lado par 20531075 Avenida Edison Passos de 1002 a 2258 lado par 20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar 20531077 Avenida Edison Passos de 2087 ao fim lado ímpar 20531078 Avenida Edison Passos de 2260 ao fim lado par 20531080 Estrada Velha da Tijuca até 1169/1170 20531081 Estrada Velha da Tijuca de 1171/1172 ao fim 20531090 Rua Raimundo Castro Maia 20531100 Rua Tiumbi 20531110 Rua Juruato 20531120 Rua Eduardo Xavier 20531130 Largo São Camilo de Lellis 


sed -r 's/[0-9]{8}/\n&/g' texto.txt|sed '1d;' 

20261270 Estrada Roquete Pinto
20531005 Rua Doutor Catrambi
20531010 Rua Ângelo dos Reis
20531020 Rua Caetano de Campos
20531030 Rua Custódio Correia
20531040 Rua Alves Câmara
20531050 Rua Ministro Viriato Vargas
20531060 Rua Marechal Pilsudski
20531073 Avenida Edison Passos até 1075 lado ímpar
20531074 Avenida Edison Passos até 1000 lado par
20531075 Avenida Edison Passos de 1002 a 2258 lado par
20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar
20531077 Avenida Edison Passos de 2087 ao fim lado ímpar
20531078 Avenida Edison Passos de 2260 ao fim lado par
20531080 Estrada Velha da Tijuca até 1169/1170
20531081 Estrada Velha da Tijuca de 1171/1172 ao fim
20531090 Rua Raimundo Castro Maia
20531100 Rua Tiumbi
20531110 Rua Juruato
20531120 Rua Eduardo Xavier
20531130 Largo São Camilo de Lellis

______________________________________________________________________

Att.: Marcelo Oliver
______________________________________________________________________



3. Re: Formatar arquivo de texto

leandro peçanha scardua
leandropscardua

(usa Ubuntu)

Enviado em 25/06/2022 - 23:01h


vc pode salvar em csv (https://www.qualocep.com/exemplos/2) e abra com o calc do libreoffice. Vai abrir uma tela de importação. No campo "conjunto de caracteres" selecione "Europa Ocidental (ISO_8851-1) e em "opções de separador" selecione "Outro" e coloque o valor | (barra) e clique aceitar. O documento vai abrir como planilha. Daí vc faz para todos e monta uma planilha só com todas.


4. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 25/06/2022 - 23:14h


Minions escreveu:


msoliver escreveu:

Minions escreveu:


Tem como deixar assim?

20261270 Estrada Roquete Pinto
20531005 Rua Doutor Catrambi
20531010 Rua Ângelo dos Reis
20531020 Rua Caetano de Campos
20531030 Rua Custódio Correia
20531040 Rua Alves Câmara
20531050 Rua Ministro Viriato Vargas
20531060 Rua Marechal Pilsudski
20531073 Avenida Edison Passos até 1075 lado ímpar
20531074 Avenida Edison Passos até 1000 lado par
20531075 Avenida Edison Passos de 1002 a 2258 lado par
20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar
20531077 Avenida Edison Passos de 2087 ao fim lado ímpar
20531078 Avenida Edison Passos de 2260 ao fim lado par
20531080 Estrada Velha da Tijuca até 1169/1170
20531081 Estrada Velha da Tijuca de 1171/1172 ao fim
20531090 Rua Raimundo Castro Maia
20531100 Rua Tiumbi
20531110 Rua Juruato
20531120 Rua Eduardo Xavier
20531130 Largo São Camilo de Lellis
...

Minions, boa noite.
Da próxima vez, poste em texto, fica mais fácil para ajudar . . . :)
Segue:
cat texto.txt
20261270 Estrada Roquete Pinto 20531005 Rua Doutor Catrambi 20531010 Rua Ângelo dos Reis 20531020 Rua Caetano de Campos 20531030 Rua Custódio Correia 20531040 Rua Alves Câmara 20531050 Rua Ministro Viriato Vargas 20531060 Rua Marechal Pilsudski 20531073 Avenida Edison Passos até 1075 lado ímpar 20531074 Avenida Edison Passos até 1000 lado par 20531075 Avenida Edison Passos de 1002 a 2258 lado par 20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar 20531077 Avenida Edison Passos de 2087 ao fim lado ímpar 20531078 Avenida Edison Passos de 2260 ao fim lado par 20531080 Estrada Velha da Tijuca até 1169/1170 20531081 Estrada Velha da Tijuca de 1171/1172 ao fim 20531090 Rua Raimundo Castro Maia 20531100 Rua Tiumbi 20531110 Rua Juruato 20531120 Rua Eduardo Xavier 20531130 Largo São Camilo de Lellis 


sed -r 's/[0-9]{8}/\n&/g' texto.txt|sed '1d;' 

20261270 Estrada Roquete Pinto
20531005 Rua Doutor Catrambi
20531010 Rua Ângelo dos Reis
20531020 Rua Caetano de Campos
20531030 Rua Custódio Correia
20531040 Rua Alves Câmara
20531050 Rua Ministro Viriato Vargas
20531060 Rua Marechal Pilsudski
20531073 Avenida Edison Passos até 1075 lado ímpar
20531074 Avenida Edison Passos até 1000 lado par
20531075 Avenida Edison Passos de 1002 a 2258 lado par
20531076 Avenida Edison Passos de 1077 a 2085 lado ímpar
20531077 Avenida Edison Passos de 2087 ao fim lado ímpar
20531078 Avenida Edison Passos de 2260 ao fim lado par
20531080 Estrada Velha da Tijuca até 1169/1170
20531081 Estrada Velha da Tijuca de 1171/1172 ao fim
20531090 Rua Raimundo Castro Maia
20531100 Rua Tiumbi
20531110 Rua Juruato
20531120 Rua Eduardo Xavier
20531130 Largo São Camilo de Lellis

______________________________________________________________________

Att.: Marcelo Oliver
______________________________________________________________________



Boa noite Marcelo,

Eu só não postei antes o texto por que achei que ia aparece caracteres estranhos no editor do vol.

Entre CEP e Endereço tem como adicionar ";"? quando joga no calc as 2 colunas ficam em uma só.


A ideia mesmo seria pega todos os ceps e endereços do site https://www.qualocep.com e joga no base do libreoffice via script.

Ex:

CEP Endereço Bairro Cidade Estado

Minions, segue com o ":" depois do cep.
sed -r 's/[0-9]{8}/\n&:/g;' texto.txt|sed '1d'
Ou # Sem o espaço após o ":"
sed -r 's/[0-9]{8}/\n&/g;' texto.txt|sed '1d;s/ /:/'



______________________________________________________________________
Importante:
lynx --dump https://www.vivaolinux.com.br/termos-de-uso/ | sed -nr '/^[ ]+Se/,/dou.$/p'
______________________________________________________________________
Nota de esclarecimento:
O comando: ACIMA, faz parte da minha assinatura.
Att.: Marcelo Oliver
______________________________________________________________________



5. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 26/06/2022 - 05:06h

Minions, bom dia!
Use o lynx:
site="https://www.qualocep.com/cep/rj/rio-de-janeiro/alto-da-boa-vista/"
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -r '/[0-9]{8}/{N;s/\n/:/}' > cep02.txt

Testado e funcionando

______________________________________________________________________
Importante:
lynx --dump https://www.vivaolinux.com.br/termos-de-uso/ | sed -nr '/^[ ]+Se/,/dou.$/p'
______________________________________________________________________
Nota de esclarecimento:
O comando: ACIMA, faz parte da minha assinatura.
Att.: Marcelo Oliver
______________________________________________________________________



6. Re: Formatar arquivo de texto

leandro peçanha scardua
leandropscardua

(usa Ubuntu)

Enviado em 26/06/2022 - 10:56h


Entendi, vc quer fazer scrapping. Além do lynx e do wget, também existe o htmlq
https://linuxconfig.org/how-to-scrape-web-pages-from-the-command-line-using-htmlq
Para inserir no base eu acho que você vai ter de criar a consulta sql do registro e rodar no editor sql dele.


7. Re: Formatar arquivo de texto

Morpheus
Minions

(usa Nenhuma)

Enviado em 26/06/2022 - 15:37h


msoliver escreveu:

Minions, bom dia!
Use o lynx:
site="https://www.qualocep.com/cep/rj/rio-de-janeiro/alto-da-boa-vista/"
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -r '/[0-9]{8}/{N;s/\n/:/}' > cep02.txt

Testado e funcionando



1- Nesta forma teríamos que remove do cep02.txt:

Busca Endereço
Busca CEP
Código IBGE
Banco de CEP
Faixas de cep de cidades e bairros
Coordenadas geográficas
DDDs
DDIs

...

2- Para adicionar :Bairro:Cidade:Estado no cep02.txt como seria?

20261270:Estrada Roquete Pinto:Bairro:Cidade:Estado


3- Pegar as informações da raiz https://www.qualocep.com de todos os estados, acho que não tem como? Só mesmo pelo bairro?




8. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 27/06/2022 - 02:47h


Minions escreveu:


msoliver escreveu:

Minions, bom dia!
Use o lynx:
site="https://www.qualocep.com/cep/rj/rio-de-janeiro/alto-da-boa-vista/"
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -r '/[0-9]{8}/{N;s/\n/:/}' > cep02.txt

Testado e funcionando



1- Nesta forma teríamos que remove do cep02.txt:

Busca Endereço
Busca CEP
Código IBGE
Banco de CEP
Faixas de cep de cidades e bairros
Coordenadas geográficas
DDDs
DDIs

...

2- Para adicionar :Bairro:Cidade:Estado no cep02.txt como seria?

20261270:Estrada Roquete Pinto:Bairro:Cidade:Estado


3- Pegar as informações da raiz https://www.qualocep.com de todos os estados, acho que não tem como? Só mesmo pelo bairro?


Boa noite, Minions,
Vamos por partes:
01 - OK - Copiei o comando errado..., abaixo está corrigido.
02 - Tem várias formas, bash, awk sed,
Optei pelo sed, complementando o ultimo comando.
Segue:

site='https://www.qualocep.com/cep/rj/rio-de-janeiro/anchieta/'
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
b='Anchieta';c='Rio de Janeiro';e='RJ';
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -nr "/^[0-9]{8}/{N;s/\n/:/;s/$/:${b}:${c}:${e}/p}"

É isso!

____________________________________________
Importante:
Se te ajudei, retribua.....
É simples...
Só marcar como a Melhor Resposta... :)

___________________________________________
Att.: Marcelo Oliver
___________________________________________



9. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 27/06/2022 - 02:49h


Minions escreveu:


leandropscardua escreveu:

Para inserir no base eu acho que você vai ter de criar a consulta sql do registro e rodar no editor sql dele.


Como seria isso?

Tem tutorial

https://thobias.org/doc/shell_bd.html


______________________________________________________________________
Att.: Marcelo Oliver
______________________________________________________________________



10. Re: Formatar arquivo de texto

Morpheus
Minions

(usa Nenhuma)

Enviado em 27/06/2022 - 14:07h

msoliver escreveu:


site='https://www.qualocep.com/cep/rj/rio-de-janeiro/anchieta/'
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
b='Anchieta';c='Rio de Janeiro';e='RJ';
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -nr "/^[0-9]{8}/{N;s/\n/:/;s/$/:${b}:${c}:${e}/p}"




O B, C e E varia conforme a pagina HTML, teríamos que filtra para depois adicionar no arquivo.


11. Re: Formatar arquivo de texto

Marcelo Oliver
msoliver

(usa Debian)

Enviado em 27/06/2022 - 14:17h


Minions escreveu:

msoliver escreveu:


site='https://www.qualocep.com/cep/rj/rio-de-janeiro/anchieta/'
ua="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 Lynx L_y_n_x"
lynx -useragent "$ua" -dump "$site" > cep.txt
b='Anchieta';c='Rio de Janeiro';e='RJ';
sed -nr 's/^ +\* \[[0-9]+\]|^ +\[[0-9]+\]cep da //p' cep.txt|sed -nr "/^[0-9]{8}/{N;s/\n/:/;s/$/:${b}:${c}:${e}/p}"




O B, C e E varia conforme a pagina HTML, teríamos que filtra para depois adicionar no arquivo.

São os mesmos valores que estão na var site....
Defina esses valores e monte a var site com os mesmos....


______________________________________________________________________
Att.: Marcelo Oliver
______________________________________________________________________



12. Re: Formatar arquivo de texto

Morpheus
Minions

(usa Nenhuma)

Enviado em 27/06/2022 - 14:21h


msoliver escreveu:


Minions escreveu:


leandropscardua escreveu:

Para inserir no base eu acho que você vai ter de criar a consulta sql do registro e rodar no editor sql dele.


Como seria isso?

Tem tutorial

https://thobias.org/doc/shell_bd.html


______________________________________________________________________
Att.: Marcelo Oliver
______________________________________________________________________



Estou usando o BASE do libreoffice.

Tem como importar via terminal para ele os dados do arquivo .csv?





01 02



Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts