|
Solução com OCR |
|
Autores: |
Luiz Fernando Ballin Ortolani - GAC |
| Sara Fichman Raskin - GPT | |
| Trata-se de um projeto
de tratamento de imagem com utilização de OCR tendo como aplicação a Investigação
Policial Informatizada - PIN, visando disponibilizar à Polícia Civil os
recursos de informática para captura, armazenamento, tratamento e recuperação
de dados e imagens de elementos com passagem nas unidades policiais civis
e notícias policiais publicadas na imprensa. Coube à CELEPAR desenvolver
o projeto-piloto de sistema com recursos integrados de dados textuais e
imagens, e conhecer a tecnologia de tratamento de imagens em aplicações
(sistemas) com recursos de Banco de Dados com Imagens e OCR. O projeto está dividido em dois módulos: OCR e Imagem. De imediato, estamos abordando o módulo OCR. O MÓDULO OCR OCR - Optical Character Recognition - ou Reconhecimento óptico de Caracteres, é o processo pelo qual um aplicativo é capaz de converter a imagem de um documento (gravada ou não em um arquivo gráfico) em uma seqüência de caracteres. Atualmente os OCRs estão reconhecendo, também, fonte, corpo e atributos de caracteres e até o layout de página dos documentos. O processo de reconhecimento é constituído de duas fases principais: digitalização e o reconhecimento propriamente dito. Naquela, com auxilio de um scanner preferencialmente de mesa, uma cópia do documento original é reproduzido de forma digitalizada, podendo gerar um arquivo gráfico que servirá de entrada para o OCR. O formato desses arquivos é, normalmente, TIFF (Tagged Image File Format), mas os produtos mais recentes permitem a geração dos formatos PCX e BMP, também aceitos pelos produtos de OCR e, em muitos casos, disponíveis com a aquisição do scanner. A partir do arquivo gráfico, o OCR identifica as áreas de texto do documento - o usuário pode selecionar sua área de interesse- e efetua o reconhecimento, gerando o texto gravado em arquivo separado. O OCR acompanha a maioria dos scanners comercializados. Em alguns produtos existe uma terceira etapa, extremamente importante para melhorar a qualidade, que consiste na verificação do reconhecimento comparando o texto convertido com um dicionário, incluindo, também, correção ortográfica. O arquivo texto final pode ser gravado em diferentes formatos permitindo a transferência para processadores de texto, bancos de dados, programas de editoração eletrônica ou aplicações específicas para as necessidades dos usuários, com as vantagens de reduzir a digitação, permitir a alteração do layout, facilitar o armazenamento e a recuperação das informações. Outro recurso já disponível nos OCRs é a capacidade de aprendizado, recurso através do qual um OCR é capaz de aprender a reconhecer novos caracteres. Esta característica é fundamental para documentos que não contêm somente textos, mas, também, números, símbolos ou textos com fontes e atributos diferentes. O documento original pode conter formatação pré- definida, como uma fatura, transferindo os dados de interesse diretamente para o sistema informatizado; ou, ainda, o documento pode não ter formatação alguma, em geral possui grande volume de informações, como um livro ou uma enciclopédia. Uma solução baseada em OCR deve levar em conta os efeitos de um reconhecimento errado, como a troca do l (ele minúsculo) com o número 1, podendo inviabilizar tal alternativa porque apesar da melhoria dessa categoria de produtos, o reconhecimento não é 100% correto. Num teste rápido que realizamos. o índice foi de 80%. A imagem digitalizada ocupou 110Kb enquanto o texto convertido ocupou 3,2Kb - uma redução considerável. A qualidade do reconhecimento depende da qualidade do equipamento de digitalização (resolução e sensibilidade) e da qualidade do documento original (papel, tamanho e tipo da fonte de caracteres). Os piores resultados quanto ao reconhecimento são para textos produzidos com impressoras matriciais (75%). Melhoram com fax (80%), jornal (93%), livros e revistas (97%), segundo testes publicados pela revista PC Magazine Brasil, outubro de 1993. Alguns produtos disponíveis no país são: CatchWord, Go-CR, OmniPage 386, OmniPage Professional, Perceive Dos, Perceive Windows, Recognita Plus. Entre as marcas de scanners tem-se: Advanced Vision Research, Canon. Epson, Genius, Hewlett-Packard Howtek, Light Speed, Logitech, Microtek, com modelos de mão - menor precisão, mais baratos mas recomendados para capturas da borda interna de livros e revistas - e modelos de mesa - maior precisão e mais caros. Uma das maiores fontes de informações
para as atividades de investigação é o material publicado na imprensa.
As reportagens policiais apresentam, diariamente, os acontecimentos da
área, com narrativa de ocorrências, nomes dos envolvidos, locais e formas
de atuação, compondo material de significativo interesse para a Polícia
Civil. |
| Copyright@2003 / Companhia de Informática do Paraná - CELEPAR | links: |
![]() |
![]() |
![]() |