Linux slogan
Visite também: Segurança Linux · BR-Linux.org · Dicas-L · Doode · NoticiasLinux · SoftwareLivre.org · UnderLinux



» Screenshot
» Login
Login:
Senha:

Se você ainda não possui uma conta, clique aqui.

Esqueci minha senha


Dica

OCR no Ubuntu 9.04 utilizando tesseract e gscan2pdf
Linux user
Publicado por Angelo Marcondes de Oliveira Neto em 15/09/2009

Login: angelomarcondes, 19439 pontos
[ Hits: 13099 ]

OCR no Ubuntu 9.04 utilizando tesseract e gscan2pdf

OCR de qualidade sob Linux existe sim! Tesseract e gscan2pdf são a solução para quem precisa desta funcionalidade no Linux. Leia o post e aprenda a instalar estas ferramentas rapidamente.

Recentemente fui instigado várias vezes pelo meu grande amigo André Brun, da lista de discussão Gitec (Grupo Interlegis de Tecnologia). André, que trabalha na Câmara Municipal de Agudo, lá no distante Rio Grande do Sul, me questionou várias vezes sobre qual a melhor alternativa de scanner para o Ubuntu e sobre qual o melhor software para a realização de OCR (Optical Character Recognition ou Reconhecimento Ótico de Caracteres), com a possibilidade de gerar um arquivo de PDF.

Para quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)

Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento ótico de caracteres no Linux.

Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar produtos que utilizam linha de comando para usuários não-técnicos. Não que o André não seja técnico, mas eu já estava pensando em utilizar aqui no trabalho.

Mas como a decepção pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no Linux: agora é fácil!. No artigo, o autor apresenta, além o tesseract, um outro software chamado gscan2pdf, que veio preencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Linux: OCR no Ubuntu/Linux 9.04, utilizando tesseract e gscan2pdf
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:

$ sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf

Pronto, a parti daí o gscan2pdf estará listado no menu Aplicativos, submenu Gráficos.

Apesar do uso do gscan2pdf ser um tanto quanto intuitivo, fiz um pequeno vídeo onde demonstro sua utilização, o qual posto abaixo. Aproveitem!

Outras dicas deste autor

Leitura recomendada
   Dica Linux recomendada Entevista de Jon Maddog Hall na TV Cultura
   Dica Linux recomendada Técnico de Windows e técnico de informática... Saiba a diferença
   Dica Linux recomendada Configurando mouse Microsoft Intellimouse 4.0 no Debian ETCH
   Dica Linux recomendada Checando dependências de pacotes em Debian Linux e derivados
   Dica Linux recomendada Instalando o Debian a partir de um HD

Comentários
[1] Comentário enviado por tks7lucas em 14/12/2009 - 19:32h:

Muito obrigado, tu é muito didático e com certeza seu tutorial ajuda muito os iniciantes que querem aderir ao livre.


[2] Comentário enviado por feitosagoncalves em 16/08/2010 - 02:21h:

Testei o tesseract e o gscan2pdf, em termos de OCR em si, não fica devendo nada aos programas pagos, na hora de salvar, entretanto, não consegui fazer algo que queria...

No ABBY Fine reader, quando queremos salvar em PDF, existe a opção de salvar o texto ou salvar a imagem "com o texto por baixo", conforme a figura abaixo:

http://www.imagebam.com/image/c1c78f93276763


A vantagem desse método é que você conserva o layout original da imagem e agrega o texto para fins de Ctrl-C Ctrl-V...

A dúvida é, como fazer isso no Linux?

Obrigado!



Contribuir com comentário


  
Para executar esta ação você precisa estar logado no site, caso contrário, tudo o que for digitado será perdido.
Responsável pelo site: Fábio Berbert de Paula - Conteúdo distribuído sob licença GNU FDL
Site hospedado por:

Viva o Linux

A maior comunidade Linux da América Latina! Artigos, dicas, tutoriais, fórum, scripts e muito mais. Ideal para quem busca auto-ajuda em Linux.