Extraindo texto de arquivos PDF com pstotext

Publicado por julio henrique maschio em 10/12/2005

[ Hits: 14.586 ]

 


Extraindo texto de arquivos PDF com pstotext



Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

Outras dicas deste autor

aMSN snapshot - para quem gosta de fortes emoções diariamente

Amsn e Imlib no Debian

Leitura recomendada

Lançamento do Debian Zine

Menu do Gnome no seu Mouse com a tecla "Windows" (ou "Super")

Arch Linux - Mídia de instalação via PXE (Internet)

MS Office 2010 no Linux Mint - Instalação via PlayOnLinux/Wine

Damn Small Linux disponível para download

  

Comentários
[1] Comentário enviado por birilo em 12/12/2005 - 07:25h

Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão

[2] Comentário enviado por willians dutra em 25/03/2007 - 10:28h

valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.

[3] Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h

Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!



Contribuir com comentário