OCP4-Machine-learning-to-predict-energy-consumption

Machine learning regression model to predict energy consumption and GHG emission

Le dataset est assemblé à partir de données relevées sur deux années et les variables cibles sélectionnées. Un traitement approfondi est mis en place pour traiter les nombreuses valeurs manquantes et les valeurs erronées. Le jeu de données est filtré pour se concentrer sur les features pertinentes pour la modélisation et éviter les risques de data leakage. Il est également simplifié s'agissant de certaines variables catégorielles qui contiennent un trop grand nombre de catégories. L'analyse univariée met en évidence la nécessité de transformer certaines données, dont les variables cibles, afin de disposer d'une répartition favorisant la performance du machine learning. L'analyse multivariée met en évidence des corrélations permettant de filtrer davantage les features du jeu de données.

Le machine learning s'appuie sur la librairie scikit-learn et sur XGBoost, en comparant différents types de modèles entre eux et par rapport à la baseline du dummyregressor: modèles linéaires (ridge, lasso, elasticnet), modèles non linéaires (Kernel SVM, kernel ridge et réseau de neurones), et modèles ensemblistes (random forest, adaboost et xgboost). La comparaison s'effectue selon un unique processus pour tous les modèles et comprenant:

Le découpage du jeu en une partie pour l'apprentissage et l'autre pour le test ;
La fixation d'un random state pour assurer la reproductibilité ;
la définition de la métrique principale et des métriques secondaires ;
la mesure du temps d'apprentissage de chaque modèle ;
l'optimisation des hyperparamètres de chaque modèle, par une recherche sur grille avec validation croisée et la visualisation graphique de l'impact des paramètres sur le score ;
l'examen des courbes d'apprentissage, pour identifier un possible sur-apprentissage ou fuite de données, en plus de la capacité d'apprentissage de chaque modèle.

Un bilan permet de sélectionner le meilleur modèle et examiner les possibilités de simplification. L'analyse de l'importance des features permet par ailleurs de conclure sur l'intérêt de disposer de l’ENERGY STAR Score pour la prédiction des émissions de GES.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Pelec_01_notebook_analyse_exploratoire.ipynb		Pelec_01_notebook_analyse_exploratoire.ipynb
Pelec_02_tests_modeles.ipynb		Pelec_02_tests_modeles.ipynb
Pelec_03_presentation.pdf		Pelec_03_presentation.pdf
Pelec_04_fonctions.py		Pelec_04_fonctions.py
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OCP4-Machine-learning-to-predict-energy-consumption

About

Releases

Packages

Languages

EricPaul075/OCP4-Machine-learning-to-predict-energy-consumption

Folders and files

Latest commit

History

Repository files navigation

OCP4-Machine-learning-to-predict-energy-consumption

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages