Resumo:
O presente trabalho visa o desenvolvimento de uma técnica para reconhecimento automático de documentos, para sistemas de gerência eletrônica de documentos (GED). Sistemas GED atualmente, não possuem um sistema para o reconhecimento automático de documentos, o que torna o armazenamento e a recuperação de documentos muito lenta. A técnica abordada neste trabalho consiste em segmentar a imagem em blocos de informações utilizando a morfologia matemática binária. A partir destes blocos extrair a informação textual de cada um utilizando o motor OCR Tesseract. Então é possível gerar arquivos de textos, que serão úteis para o processo de indexação de documentos. Os testes foram realizados em uma base de imagens contendo 90 documentos públicos, os documentos testados foram: Portarias, Atos executivos e Ordens de Serviços. Os testes apresentaram resultados promissores, o reconhecimento dos caracteres foi bem sucedido e não houve perda de informações ao realizar o recorte nos blocos de imagens.