Convertendo arquivos PDF para TXT

Publicado por edps em 03/04/2012

[ Hits: 30.443 ]

Blog: https://edpsblog.wordpress.com/

 


Convertendo arquivos PDF para TXT



Uma pequena dica sobre como converter arquivos '.pdf' para '.txt'.

Recentemente, minha esposa e eu voltamos aos bancos escolares e boa parte do conteúdo disponibilizado pelos instrutores para leitura e/ou pesquisa, estão no formato '.pdf'.

Na maioria das vezes, acessíveis através do GoogleDocs (que por sinal, eu odeio!), nada como um bom link direto para baixar com o wget! (hehehe)

A ideia por trás da conversão dos '.pdf' para '.txt', visa primeiramente, a redução dos custos com a impressão de alguns destes materiais, visto que, com a conversão para texto puro, podemos editar/remover/inserir conteúdo, e somente depois imprimi-los - É uma boa ideia, ou não é?

* Sei também que usando o 'pdftk', dá para editar o arquivo '.pdf'.

Neste exemplo, o texto poderá ser acessado através do seguinte endereço: http://migre.me/8kbg4

E trata-se de um pequeno '.pdf' de 1MB e 60 páginas.

A conversão se dará através do comando pdftotext, disponível no pacote “poppler-utils” no Debian. Caso não o tenha instalado:

# apt-get update
# apt-get install poppler-utils


Propriedades do pacote no Synaptic:
- Conversão do '.pdf' para '.txt'

Use:

pdftotext arquivo.pdf novo-arquivo.txt
'.txt' visto com o Nano:
Em seguida, abri o LibreOffice Writer, colei o conteúdo do '.txt', salvei um novo arquivo com a extensão '.doc' e alterei a fonte para Arial 10.

Com isto, o novo arquivo (completo) ficou com somente 37 páginas.
Referência: http://linux.die.net - pdftotext

Dica publicada em meu Blog: http://gnu2all.blogspot.com.br

Outras dicas deste autor

RSS - Boas fontes de notícias para os linuxers

Wallpapers para Sabayon

Arch Wiki Lite

Adicionando outras Distribuições Linux ou Sistemas Operacionais no Grub2

Convertendo uma webpage para PDF pelo terminal

Leitura recomendada

Mensagem padrão para usuários no terminal

"Propriedade intelectual" e interesse público

Extrator de arquivos em Ruby!

Clone do RHEL 6.4 já disponível

Ligando para números 4001, 4004, 0800 e 0300 a partir do Skype

  

Comentários
[1] Comentário enviado por JJSantos em 24/05/2012 - 04:58h

Favoritado.

[2] Comentário enviado por removido em 27/05/2012 - 16:24h

Thanks brother!

[3] Comentário enviado por augustoschwartz em 20/06/2013 - 10:27h

Parabéns e obrigado pelo artigo.
Contribuiu bastante para meus trabalhos.



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts