
Estimation de la faisabilité d’un algorithme de prédiction de la consommation énergétique de bâtiments non résidentiels.
Contexte
Proof-of-concept d'un modèle de prédiction de la consommation et des émissions de bâtiments non destinées à l’habitation.
Données
Les données datent de 2015 et 2016 :
- 2015 : 3340 individus et 47 variables
- 2016 : 3376 individus et 46 variables
Variables
Les variables sélectionnées pour le modèle de prédiction, en dehors des variables d’identification des bâtiments, sont :
- Building Type/Property type : fonction du bâtiment
- Year built : année de construction
- Property Gross Floor Area Total : surface au sol totale du bâtiment
- Electricity/Natural Gas/Steam Use : type de source d’énergie utilisée dans le bâtiment
- Source Energy Use : énergie annuelle utilisée pour faire fonctionner la propriété, comprenant les pertes liée à la production, le transport et la distribution de cette énergie.
Les variables cibles, ou variables "targets", sont celles que le modèle doit apprendre à prédire. Elles sont les suivantes :
- Site Energy Use : consommation totale d’énergie du bâtiment
- Total Green House Gas Emissions : quantité totale de gaz à effet de serre émis par le bâtiment
Analyse exploratoire des données
Analyse Univariée
Type de Bâtiment
Regardons la répartition du type de bâtiment dans les données fournies.

L’analyse exploratoire sur la distribution des types de bâtiment révèle que seul 50% des bâtiments considérés sont de type non résidentiel. Les données des bâtiments résidentiels sont retirées.
Année de construction
Regardons la répartition des années de constructions des bâtiments non résidentiels.

Surface Totale du bâtiment

Target 1 : Émissions totales de gaz à effet de serre
Observons la répartition des valeurs pour la première variable cible, que le modèle doit prédire.

Target 2 : Consommation énergétique sur site (kBtu)
Observons la répartition des valeurs pour la seconde variable cible, que le modèle doit prédire.

Analyse Bivariée
Afin d'éviter la redondance dans l'analyse, il est bon de vérifier la corrélation entre les variables. En effet, une forte corrélation entre variables peut mener à la mise à l'écart d'une des deux variables.

Certaines variables quantitative semblent corrélées plus fortement à d'autres.
Effectuons des tests statistiques pour tester la significativité des valeurs du coefficient de corrélation ou coefficient de Pearson.
Posons les hypothèses :
- Hypothèse 0 (H0) : Variables indépendantes si p-valeur > a%
- Hypothèse 1 (H1) : Variables non indépendantes si p-valeur < a%
La p-valeur ou probabilité critique est la probabilité pour un modèle statistique donné sous l'hypothèse nulle d'obtenir une valeur au moins aussi extrême que celle observée. On choisira a = 5 par défaut, valeur en dessous de laquelle on peut considérer la probabilité d'obtenir la valeur observée sous hypothèse nulle H0 comme quasi inexistante.
Calculons maintenant les p-values.
La variable cible TotalGHGEmissions et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.
La variable cible SiteEnergyUse(kBtu) et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.
Les variables cible SiteEnergyUse(kBtu) et TotalGHGEmissions sont corrélées, avec une p-value < 5%.
Les deux variables cibles sélectionnées semblent corrélées à au moins une des variables explicatives (PropertyGFATotal), ce qui confirme qu'il est intéressant d'utiliser le jeu de données sélectionné pour les prédire.
Préparation des données
Après une séparation du jeu de données en données test et données d’entraînement pour le modèle, elles sont séparément nettoyées : traitement des valeurs manquantes, valeurs aberrantes…). Puis les variables quantitatives sont normalisées, les variables catégorielles binarisées.
Modélisation
Modèles testés
Un benchmark d'algorithmes de Machine Learning est effectué pour sélectionner le plus adapté à la problématique.
Dummy Regressor
Un modèle de régression très simple pour comparer avec les modèles les plus complexes.
Linear Regression
Un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.
Pour limiter le sur-apprentissage, on peut utiliser une technique, la régularisation, qui consiste à contrôler simultanément l'erreur du modèle sur le jeu d'entraînement et la complexité du modèle. Deux modes de régularisation sont testés :
- Régularisation Ridge : modèle de régression avec un terme de régularisation l2
- Régularisation Lasso : modèle de régression avec un terme de régularisation l1
Decision Tree
Un Arbre de Décision est un algorithme de Machine Learning permettant de classifier des données en se basant sur des suites de conditions. C’est un modèle non linéaire de suite de décision binaire.
Random Forest
Un modèle de Random Forest est composé d’un ensemble d’Arbres de Décision. C’est donc un modèle ensembliste parallèle, composé de plusieurs Arbres de Décision.
Metrics
Afin de départager les différents modèles testés et choisir le plus performant, les métriques suivantes ont été utilisées :
- R² : Coefficient de détermination, carré de la corrélation de Pearson, doit être maximisé.
- MAE (Mean Absolute Error) & MAPE (Mean Absolute Percentage Error) : somme des erreurs absolues divisée par la taille de l’échantillon. Doit être minimisée.
- RMSE (Root Mean Squarred Error) : racine de l’erreur quadratique moyenne. Doit être minimisée.
- Computation time : temps de calcul par modèle.
Conclusion
Algorithme | R² | MAE | MAPE | RMSE | Temps de Calcul |
Dummy Regressor | 0.00 | >> 1 | >> 1 | >> 1 | << 0.01 s |
Linear Regression | 0.78 | 0.54 | 0.26 | 0.71 | << 0.01 s |
Regression Ridge | 0.82 | 0.55 | 0.25 | 0.71 | << 0.01 s |
Regression Lasso | 0.80 | 0.53 | 0.25 | 0.70 | 0.12 s |
Decision Tree | 0.94 | 0.16 | 0.04 | 0.40 | << 0.01 s |
Random Forest | 0.96 | 0.12 | 0.03 | 0.31 | 0.48 s |
L'algorithme sélectionné pour le Proof-of-Concept est la Random Forest.