OCR - converter imagens em texto

Publicado por Xerxes em 22/09/2022

[ Hits: 5.918 ]

 


OCR - converter imagens em texto



Dica testada no Debian 11.

O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.

Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.

Instale o tesseract:

sudo apt install tesseract-ocr

E um idioma:

sudo apt-get install tesseract-ocr-[IDIOMA]

Exemplo para português:

sudo apt-get install tesseract-ocr-por

Ou pode instalar todos os idiomas:

sudo apt-get install tesseract-ocr-all

Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor

Para realizar a conversão com idioma português, veja um exemplo:

tesseract -l por imagem_entrada.png arquivo_saida

O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".

Basta ver o resultado com:

cat arquivo_saida.txt

Veja uma imagem com exemplo:
Fontes:
Outras dicas deste autor

Edge-Snapping vs. Edge-Tiling

Fazer Alt+Tab funcionar no Ubuntu com GNOME Clássico

Tocando rádios no Iceweasel

Configurando botão direito do touchpad no CrunchBang

Placa de rede brc4313 no Funtoo

Leitura recomendada

Colocar diretório atual (corrent) no PATH

Unity - Atalhos para captura de tela

PV + PIPE + DD = Barra de Progresso + Gravação de Imagem + Clonar Disco

Criando um usuário exclusivo para desligar a máquina

Combinando find com a variável PATH

  

Comentários
[1] Comentário enviado por Carlos_Cunha em 27/09/2022 - 14:42h

Legal!!!!


#-------------------------------------------------------------------------------------#
"Falar é fácil, me mostre o código." - Linus Torvalds
#-------------------------------------------------------------------------------------#

[2] Comentário enviado por maurixnovatrento em 23/10/2022 - 15:51h


Bem legal. Já anotado.

___________________________________________________________
Conhecimento não se Leva para o Túmulo.
https://github.com/mxnt10



Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts