Implementação de solução de reconhecimento de caracteres para melhor acompanhamento epidemiológico na cidade de Catanduva, por meio de classe OCRBoletimCatanduva
.
A versão mais atualizada está em /python/
, dia 08/05/2020, com as versões mostradas abaixo.
- Site da prefeitura é acessado
- Boletim do dia é baixado
- Imagem é pré-processada
- Dados são extraídos e salvos em formato
csv
oujson
- Python 2.7
-
- pytesseract
-
- numpy
-
- BeautifulSoup4
- OpenCV 4
- Tesseract 4.0
OU
- C++
- OpenCV 4
- Tesseract 4.0
TEMP_IMAGE_FOLDER = './temp_images'
OUTPUT_FOLDER = './output'
FILE_FORMAT = 'json'
BOLETIM_URL = 'http://www.catanduva.sp.gov.br/coronavirus/'
TAMANHO_IMAGEM = (1134, 1134)
FORMAT
: formato do output (json ou csv)BOLETIM_URL
: site da Prefeitura contendo boletim epidemiológicoTEMP_IMAGE_FOLDER
: localização da pasta em que ficarão armazenadas as imagens para análiseOUTPUT_FOLDER
: localização da pasta em que ficarão as saídas dos dadosTAMANHO_IMAGEM
tamanho da imagem para padronizar processamento
- Caminho XPath:
/html/body/div[4]/div/div[2]/div/div/div[1]/div/div[1]/div[1]/div[1]/p[1]/img
- Via Beautiful Soup:
div.blog-single > div.inner-box > p::first-child > img['src']
O padrão da imagem deve ser mantido, os números devem ficar dentro dos limites, sem alteração de estrutura da imagem. A estrutura do site também deve ser mantida. Caso haja alterações, será necessário adaptar o script.
- Cron diário com script
roi.cpp
contém código experimental em C++, ainda não finalizado.