Os dados histĂłricos de incĂȘndios florestais foram retirados do ICFN - Instituto da conversĂŁo da Natureza e Florestas.
Fizemos bastantes melhoramentos e ediçÔes aos datasets originais; tentamos elencar aqui as alteraçÔes mais importantes:
- Datas em formato ISO 8601, ano-mĂȘs-dia (
YYYY-MM-DD
) - Harmonizar os nomes das colunas
- Apagar entradas desnecessĂĄrias
- Remover aspas desnecessĂĄrias (quote characters)
- Remover horas vazias dos campos de data
- Unificar colunas de horas e minutos numa coluna de hora Ășnica
- Eliminação de valores
NULL
- Consertar as terminaçÔes de linha e codificação UTF-8
- Analysis of fields: result of analysis of fields
- csv_tool.py: script to analyse and merge collection of CSV files
- merged.csv: CSV merged with csv_tool.py
Para juntar os vĂĄrios CSV Ă© preciso incluir o ano, que pode ser retirado do nome do ficheiro (uma vez que nĂŁo estĂĄ incluĂdo em todos os CSV). Como ninguĂ©m nos impede, podemos ser preguiçosos e incluir logo cĂłdigo Python directamente na linha de comandos:
$ scripts/csv_tool.py merge data/incendios*.csv -e "lambda f: dict(ano=re.match('.*incendios(\d{4}).csv', f.name)[1])" -o data/merged.csv
Este cĂłdigo usa uma expressĂŁo regular para extrair o ano
do nome do ficheiro:
lambda f: dict(ano=re.match('.*incendios(\d{4}).csv', f.name)[1])
- Cartografia da ĂĄrea ardida em formato Shapefile, que Ă© possĂvel associar a outros dados (por exemplo, da ANPC) pelo cĂłdigo de ocorrĂȘncia (COD_OCO)
- O repositĂłrio da Proteção Civil contĂ©m a informação em tempo real de ocorrĂȘncias, sendo que podemos filtrar as entradas por natureza (exemplo: IncĂȘndios Rurais)