Aplicativo experimental para reconhecimento óptico de caracteres (OCR)
Aplicativo experimental para reconhecimento óptico de caracteres (OCR)
Este aplicativo é um aplicativo experimental que desenvolvi há vários anos que demonstra o uso do mecanismo Tesseract OCR para reconhecer texto em imagens capturadas pela câmera do dispositivo.
Este aplicativo executa OCR em seu dispositivo – sem enviar suas imagens para um servidor – e é adequado para reconhecer palavras individuais ou frases curtas de texto, mas este aplicativo é destinado a amadores e desenvolvedores de software interessados em OCR e não ao público em geral.
Em contraste com a API Mobile Vision do Google, este aplicativo é capaz de reconhecer texto impresso em fontes não latinas enquanto estiver off-line. Para conseguir isso, este aplicativo incorpora uma quantidade incomum de dados de treinamento para vários idiomas. Esses dados de treinamento são armazenados no seu telefone e este aplicativo ocupa muito mais espaço do que aplicativos comuns.
Nenhum pré-processamento de imagem é realizado por este aplicativo antes de entregar os quadros de imagem capturados ao Tesseract, portanto, o aplicativo não está ajustado para nenhum caso de uso específico e, como resultado, sua precisão e velocidade de reconhecimento dependem fortemente de fatores situacionais como perspectiva, iluminação e tipo de fonte.
O código-fonte deste aplicativo está disponível no GitHub (com pequenas alterações para acomodar as restrições de tamanho de arquivo do GitHub). O código deste aplicativo é uma combinação de código aberto relacionado à câmera do projeto de scanner de código de barras ZXing e código de reconhecimento óptico de caracteres de código aberto do projeto Tesseract OCR.
CAPTURA DE TEXTO
A captura única padrão executa o OCR em uma imagem instantânea capturada quando você clica no botão do obturador, como uma foto normal.
Quando a caixa de seleção "visualização contínua" está marcada, o aplicativo mostra uma exibição dinâmica e em tempo real do que o dispositivo está reconhecendo ao lado do visor da câmera. O modo de visualização contínua funciona melhor em um dispositivo rápido.
USANDO ESTE APLICATIVO
• Aponte o dispositivo para uma pequena região de texto e toque no botão do obturador na tela para iniciar o OCR.
• Para reconhecer caracteres chineses/japoneses/coreanos individuais, defina o modo de segmentação de página como "caractere único".
PRECISÃO DE RECONHECIMENTO
• Vários fatores podem causar falhas no OCR: iluminação irregular, texto estilizado ou texto sem contraste suficiente do fundo. Tente ter uma boa iluminação.
• Segure o dispositivo com firmeza e certifique-se de que a imagem esteja focada.
• Se você precisar digitalizar um grande bloco de texto ou um documento inteiro, experimente um aplicativo de digitalização de documentos como o Text Fairy.
IDIOMAS
• Este aplicativo suporta vários idiomas/scripts não reconhecidos pelo Google Translate.
• Idiomas suportados para OCR:
afrikaans
albanês
amárico
árabe
Assamês
Azerbaijano
Azerbaijano (cirílico)
Basco
Bielorrusso
bengali
Bósnio
búlgaro
birmanês
catalão
Cebuano
Cherokee
Chinês (simplificado)
Chinês (tradicional)
croata
Tcheco
dinamarquês
Holandês
Dzongkha
Inglês
Inglês, Médio (1100-1500)
esperanto
estoniano
finlandês
franco
Francês
Francês, Médio (ca. 1400-1600)
Galego
Georgiano
Georgiano - Antigo
Alemão
Grego, Antigo (-1453)
Grego, Moderno (1453-)
Guzerate
haitiano
hebraico
hindi
húngaro
islandês
indonésio
Inuktitut
irlandês
italiano
Italiano - Antigo
japonês
Javanês
Kannada
Cazaque
Khmer
coreano
curdo
Quirguistão
Laos
Latim
letão
lituano
Macedônio
malaio
Malaiala
maltês
Marathi
nepalês
norueguês
Oriá
pashto
persa
polonês
Português
punjabi
romeno
russo
sânscrito
sérvio
Sérvio (latim)
Cingalês
Eslovaco
esloveno
Espanhol
Espanhol - Antigo
suaíli
sueco
Siríaco
tagalo
tadjique
tâmil
Telugu
Tailandês
tibetano
Tigrínia
turco
ucraniano
urdu
Uigur
Usbeque
Uzbeque (cirílico)
vietnamita
galês
iídiche
NOTAS DO DISPOSITIVO SAMSUNG
• Em dispositivos Samsung Galaxy, pode ser necessário manter pressionado o botão de menu para definir as preferências.
• Você poderá obter melhores resultados se desmarcar "Modo de foco padrão".
Leia mais