Uma pequena dica sobre como converter arquivos '.pdf' para '.txt'.
Recentemente, minha esposa e eu voltamos aos bancos escolares e boa parte do conteúdo disponibilizado pelos instrutores para
leitura e/ou pesquisa, estão no formato '.pdf'.
Na maioria das vezes, acessíveis através do GoogleDocs (que por sinal, eu odeio!), nada como um bom link direto para baixar
com o
wget! (hehehe)
A ideia por trás da conversão dos '.pdf' para '.txt', visa primeiramente, a redução dos custos com a impressão de alguns destes
materiais, visto que, com a conversão para texto puro, podemos editar/remover/inserir conteúdo, e somente depois imprimi-los -
É uma boa ideia, ou não é?
* Sei também que usando o 'pdftk', dá para editar o arquivo '.pdf'.
Neste exemplo, o texto poderá ser acessado através do seguinte endereço:
http://migre.me/8kbg4
E trata-se de um pequeno '.pdf' de 1MB e 60 páginas.
A conversão se dará através do comando
pdftotext, disponível no pacote “poppler-utils” no
Debian. Caso não o tenha instalado:
# apt-get update
# apt-get install poppler-utils
Propriedades do pacote no Synaptic:
- Conversão do '.pdf' para '.txt'
Use:
pdftotext arquivo.pdf novo-arquivo.txt
'.txt' visto com o
Nano:
Em seguida, abri o
LibreOffice Writer, colei o conteúdo do '.txt', salvei um novo arquivo com a extensão '.doc' e
alterei a fonte para Arial 10.
Com isto, o novo arquivo (completo) ficou com somente 37 páginas.
Referência:
http://linux.die.net - pdftotext
Dica publicada em meu Blog:
http://gnu2all.blogspot.com.br