Análisis de calidad de datasets

Este repositorio pretende ser un registro del analisis de calidad de los datasets presentes en data.buenosaires.gob.ar

Setup

Crear por única vez un virtualenv usando python 3.6.3

virtualenv venv

Para cada comando en adelante, es necesario previamente activar el virtualenv.

. venv/bin/activate

Instalar las dependencias listadas en el archivo requirements.txt

pip install -r requirements.txt

Para ejecutar las rutinas de descarga y subida es necesario crear un archivo con nombre ftp_password que tenga como contenido solo la contraseña del usuario datosabiertos para el ftp de gcba y ubicar el archivo en la carpeta src

Notebooks

El repo contiene notebooks de jupyter en la carpeta notebooks

Ejecutar rutinas

Para ejecutar las tres rutinas (descarga, limpieza, subida), ejecutar el comando

python main.py

Es posible saltar la ejecución de las diferentes rutinas mediante el uso de parametros al momento de ejecutar el script. Los distintos parametros que acepta el script son: --no-download, --no-data-cleaner, --no-upload y --download-via-scrapy. Para conocer en detalle qué hace cada una de las rutninas y poder ejecutar solo una de ellas, leer a continuación.

Descarga de datasets

La rutina de descarga obtiene los datasets listados en el archivo manifest.json. Hay dos fuentes posibles para estos datasets: el ftp de buenosaires.gob.ar o el sitio data.buenosaires.gob.ar.

Para solo descargar desde el servidor ftp, correr el siguiente comando

python main.py --no-data-cleaner --no-upload

Para solo descargar una copia de los datasets de data.buenosaires.gob.ar usando el scrapper de scrapy, correr el siguiente comando:

python main.py --no-data-cleaner --no-upload --download-via-scrapy

Ambas formas de descarga recorren los datasets listados en el archivo manifest.json y descargan los archivos correspondientes a los datasets en él. Los datasets descargados son ubicados en la carpeta downloaded-datasets. Si para un dataset su carpeta ya existe entonces se saltea su descarga. Para forzar la descarga, eliminar su carpeta y volver a correr el script.

El tamaño total de la descarga al momento de la elaboración de este script es de aproximadamente 7.45gb

Scripts de limpieza

La rutina de limpieza aplica las reglas del data-cleaner ubicadas en src/cleaner/rules a los datasets que se encuentren en la carpeta downloaded-datasets. Como resultado se obtienen copias de los datasets en la carpeta clean-datasets

Para solo aplicar las reglas de limpieza a los datasets descargados en la carpeta downloaded-datasets, correr el comando:

python main.py --no-download --no-upload

Subida de datasets

La rutina de subida de datasets toma los datasets ubicados en la carpeta clean-datasets generada por la rutina de limpieza y sube los datasets al ftp en una carpeta tambien llamada clean-datasets.

Para ejecutar solo la rutina de subida, ejecutar:

python main.py --no-download --no-data-cleaner

Referencias

El análisis y limpieza de los datasets realizado en este repositorio sigue los lineamientos de la guia de datos abiertos del Gobierbo de la Ciudad de Buenos Aires, y utiliza como herramienta el modulo Data Cleaner desarrollado por la Dirección de Datos Abiertos del Gobierno Nacional Argentino

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
notebooks		notebooks
src		src
.gitignore		.gitignore
.python-version		.python-version
.python-virtualenv		.python-virtualenv
README.md		README.md
main.py		main.py
manifest.json		manifest.json
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Análisis de calidad de datasets

Setup

Notebooks

Ejecutar rutinas

Descarga de datasets

Scripts de limpieza

Subida de datasets

Referencias

About

Releases

Packages

Languages

datosgcba/analisis-de-calidad-de-datasets

Folders and files

Latest commit

History

Repository files navigation

Análisis de calidad de datasets

Setup

Notebooks

Ejecutar rutinas

Descarga de datasets

Scripts de limpieza

Subida de datasets

Referencias

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages