Este proyecto tiene como objetivo predecir el éxito de startups utilizando técnicas de Machine Learning. Basándonos en diversas características de las startups (como su industria, equipo, financiamiento, ubicación, entre otros), entrenaremos un modelo que nos permitirá anticipar si una startup tendrá éxito o no.
Este análisis puede ayudar a inversionistas, emprendedores y aceleradoras a tomar decisiones más informadas en sus inversiones y a los emprendedores a optimizar sus estrategias para aumentar sus probabilidades de éxito.
- Predecir el éxito o fracaso de una startup utilizando un modelo de clasificación supervisada.
- Explorar los factores clave que influyen en el éxito de una startup.
- Aplicar técnicas de limpieza de datos, ingeniería de características y validación de modelos.
- Evaluar el rendimiento del modelo y optimizar su precisión.
El dataset utilizado contiene información relevante sobre startups, como:
- Industria: El sector al que pertenece la startup.
- Equipo: Número de miembros clave en el equipo fundador.
- Financiamiento: Cantidad de financiamiento inicial recibido.
- Ubicación: Región geográfica de la startup.
- Tiempo en el mercado: Años desde que la startup fue fundada.
El dataset será obtenido de fuentes abiertas como Kaggle o similares. Kaggle
- Python: Lenguaje principal para análisis y desarrollo del modelo.
- Pandas: Para la manipulación y análisis de datos.
- Scikit-learn: Para el entrenamiento y validación del modelo.
- Matplotlib / Seaborn: Para la visualización de datos y resultados.
- Jupyter Notebooks: Para documentación y desarrollo interactivo.
- Trello: Para organización y distribución de tareas. Trello
- Gamma: Presentación del proyecto. Gamma
- Análisis Exploratorio de Datos (EDA): Entender las características principales del dataset y su estructura.
- Preprocesamiento de Datos: Limpieza de datos, tratamiento de valores nulos y normalización.
- Selección de Modelos: Comparación de diferentes modelos de clasificación como:
- Árboles de decisión
- Bosques aleatorios
- Regresión logística
- K-Nearest Neighbors
- Entrenamiento del Modelo: Entrenar los modelos seleccionados utilizando validación cruzada.
- Evaluación del Modelo: Medir el rendimiento utilizando métricas como precisión, recall y F1-score.
- Optimización: Ajustar hiperparámetros para mejorar la precisión del modelo.
- Conclusiones: Análisis final sobre los factores que más influyen en el éxito de las startups.
- Clona el repositorio:
git clone https://github.com/PoeMadara/startups-machine-learning-team-1.git
- Instale las bibliotecas de Python necesarias:
conda install -r ml-project.yml
- Abra y ejecute los cuadernos de Jupyter para el análisis y visualización de datos.