OCR - converter imagens em texto

Publicado por Xerxes em 22/09/2022

[ Hits: 6.221 ]

 


OCR - converter imagens em texto



Dica testada no Debian 11.

O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.

Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.

Instale o tesseract:

sudo apt install tesseract-ocr

E um idioma:

sudo apt-get install tesseract-ocr-[IDIOMA]

Exemplo para português:

sudo apt-get install tesseract-ocr-por

Ou pode instalar todos os idiomas:

sudo apt-get install tesseract-ocr-all

Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor

Para realizar a conversão com idioma português, veja um exemplo:

tesseract -l por imagem_entrada.png arquivo_saida

O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".

Basta ver o resultado com:

cat arquivo_saida.txt

Veja uma imagem com exemplo:
Fontes:
Outras dicas deste autor

Codecs para Ubuntu e derivados via AptURL

Emerald: Pacotão de temas (Slackware Linux)

Aegisub - Criando legendas para vídeo no Linux

Adicionando "Criar novo arquivo" no menu do Arquivos do Gnome

Inverter canais de áudio no Arch Linux com pipewire

Leitura recomendada

Conversão de arquivos WAV gravados por MP3 Players

GRUB2 - Resolvendo o erro unknown filesystem - grub rescue

Tirando permissão até de root

Removendo vários arquivos de uma lista gigante (Argument list too long)

Rodando o Free Tennis

  

Comentários
[1] Comentário enviado por Carlos_Cunha em 27/09/2022 - 14:42h

Legal!!!!


#-------------------------------------------------------------------------------------#
"Falar é fácil, me mostre o código." - Linus Torvalds
#-------------------------------------------------------------------------------------#

[2] Comentário enviado por maurixnovatrento em 23/10/2022 - 15:51h


Bem legal. Já anotado.

___________________________________________________________
Conhecimento não se Leva para o Túmulo.
https://github.com/mxnt10



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts