Imagem de texto escaneado convertido em texto puro (OCR)

Publicado por Luis R. C. Silva em 30/10/2012

[ Hits: 10.177 ]

Blog: https://www.vivaolinux.com.br/~luisrcs

 


Imagem de texto escaneado convertido em texto puro (OCR)



Esta dica é para os que querem escanear livros e convertê-los em texto para editá-los.

Instale o GIMP, o tesseract e o tesseract-ocr-por.

Siga os passos:

1. Escaneie a imagem em 600 DPI em modo cores.

2. Abra a imagem no GIMP.

3. Vá no menu: imagem → modo, selecione: Tons de cinza.

4. Vá no menu: cores → Brilho e Contraste. Em brilho coloque: -60 - em contrate coloque: 127.

5. Vá no menu: filtros → Desfocar → Desfocagem gaussiana, e clique em: OK.

6. Vá no menu: filtros → Realçar → Aguçar. Em Acuidade, coloque no máximo e clique em OK.

7. Exporte a imagem com as modificações para um arquivo com extensão ".jpg".

8. Abra um terminal e digite:

tesseract imagem.jpg texto -l por

Onde imagem.jpg é o nome da imagem escaneada, e texto é a saída, que terá extensão ".txt".



Lembrando que todos os comandos devem ser executados dentro da pasta onde encontra-se a imagem escaneada.

Outras dicas deste autor
Nenhuma dica encontrada.
Leitura recomendada

Altera Quartus II Web Edition no Ubuntu 12.04

Liberando SKYPE no Squid

Instalando um cliente de terminal services no Linux

Manifesto Fonte Livre (Free Font Manifesto)

Elisa: Media Center para Linux

  

Comentários
[1] Comentário enviado por julio_hoffimann em 30/10/2012 - 22:29h

Ótima dica!

Abraço!

[2] Comentário enviado por Morvan em 01/11/2012 - 09:41h

Bom dia.

Excelente dica. Daquelas que a gente não pode não comentar.
Luis R. C. Silva, sabendo-se que o GIMP tem uma integração com o Python muito boa, será que alguém ainda não desenvolveu um "Wrapper" para estes passos?

Abraços,

Morvan, Usuário Linux #433640.



Contribuir com comentário