Removendo imagens de arquivos PDF via terminal no Linux
Dica publicada em Linux / Comandos
Removendo imagens de arquivos PDF via terminal no Linux
Muitas vezes recebemos arquivos PDF com imagens pesadas ou desnecessárias que dificultam a leitura em dispositivos simples ou ocupam muito espaço em disco. Para usuários de Linux, existe uma ferramenta poderosa e extremamente eficiente chamadaGhostscript, capaz de processar PDFs e remover elementos específicos, como imagens, mantendo apenas o texto.1. O Ghostscript
O Ghostscript é um interpretador para as linguagens PostScript e PDF. No terminal, o comando utilizado é ogs.2. Instalando a ferramenta
Verifique se você possui o Ghostscript instalado. Na maioria das distribuições Linux modernas, ele já vem por padrão, mas você pode garantir a instalação com os seguintes comandos:No Arch Linux:
sudo pacman -S ghostscript
No Ubuntu/Debian/Linux Mint:
sudo apt update && sudo apt install ghostscript
3. O comando para remover as imagens
Para gerar um novo PDF contendo apenas o texto do arquivo original, utilizaremos um script que instrui o Ghostscript a ignorar as imagens durante o processamento. Copie e cole o comando abaixo no terminal, alterandoentrada.pdf para o nome do seu arquivo e saida_sem_imagens.pdf para o nome do novo arquivo:
gs -o saida.pdf -sDEVICE=pdfwrite -dFILTERIMAGE entrada.pdf
Comando parametrizado para uso dentro de um script ou função do shell:
gs -o "noimg_$1" -sDEVICE=pdfwrite -dFILTERIMAGE "$1"