Nos projets

Exemples de réalisations par PGData

Contexte

Proof-of-concept d'un modèle de prédiction de la consommation et des émissions de bâtiments non destinées à l’habitation.

Données

Les données datent de 2015 et 2016 :

2015 : 3340 individus et 47 variables
2016 : 3376 individus et 46 variables

Variables

Les variables sélectionnées pour le modèle de prédiction, en dehors des variables d’identification des bâtiments, sont :

Building Type/Property type : fonction du bâtiment
Year built : année de construction
Property Gross Floor Area Total : surface au sol totale du bâtiment
Electricity/Natural Gas/Steam Use : type de source d’énergie utilisée dans le bâtiment
Source Energy Use : énergie annuelle utilisée pour faire fonctionner la propriété, comprenant les pertes liée à la production, le transport et la distribution de cette énergie.

Les variables cibles, ou variables "targets", sont celles que le modèle doit apprendre à prédire. Elles sont les suivantes :

Site Energy Use : consommation totale d’énergie du bâtiment
Total Green House Gas Emissions : quantité totale de gaz à effet de serre émis par le bâtiment

Analyse exploratoire des données

Analyse Univariée

Type de Bâtiment

Regardons la répartition du type de bâtiment dans les données fournies.

L’analyse exploratoire sur la distribution des types de bâtiment révèle que seul 50% des bâtiments considérés sont de type non résidentiel. Les données des bâtiments résidentiels sont retirées.

Année de construction

Regardons la répartition des années de constructions des bâtiments non résidentiels.

Surface Totale du bâtiment

Target 1 : Émissions totales de gaz à effet de serre

Observons la répartition des valeurs pour la première variable cible, que le modèle doit prédire.

Target 2 : Consommation énergétique sur site (kBtu)

Observons la répartition des valeurs pour la seconde variable cible, que le modèle doit prédire.

Analyse Bivariée

Afin d'éviter la redondance dans l'analyse, il est bon de vérifier la corrélation entre les variables. En effet, une forte corrélation entre variables peut mener à la mise à l'écart d'une des deux variables.

Certaines variables quantitative semblent corrélées plus fortement à d'autres.

Effectuons des tests statistiques pour tester la significativité des valeurs du coefficient de corrélation ou coefficient de Pearson.

Posons les hypothèses :

Hypothèse 0 (H0) : Variables indépendantes si p-valeur > a%
Hypothèse 1 (H1) : Variables non indépendantes si p-valeur < a%

La p-valeur ou probabilité critique est la probabilité pour un modèle statistique donné sous l'hypothèse nulle d'obtenir une valeur au moins aussi extrême que celle observée. On choisira a = 5 par défaut, valeur en dessous de laquelle on peut considérer la probabilité d'obtenir la valeur observée sous hypothèse nulle H0 comme quasi inexistante.

Calculons maintenant les p-values.

La variable cible TotalGHGEmissions et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.

La variable cible SiteEnergyUse(kBtu) et la variable PropertyGFATotal sont corrélées, avec une p-value < 5%.

Les variables cible SiteEnergyUse(kBtu) et TotalGHGEmissions sont corrélées, avec une p-value < 5%.

Les deux variables cibles sélectionnées semblent corrélées à au moins une des variables explicatives (PropertyGFATotal), ce qui confirme qu'il est intéressant d'utiliser le jeu de données sélectionné pour les prédire.

Préparation des données

Après une séparation du jeu de données en données test et données d’entraînement pour le modèle, elles sont séparément nettoyées : traitement des valeurs manquantes, valeurs aberrantes…). Puis les variables quantitatives sont normalisées, les variables catégorielles binarisées.

Modélisation

Modèles testés

Un benchmark d'algorithmes de Machine Learning est effectué pour sélectionner le plus adapté à la problématique.

Dummy Regressor

Un modèle de régression très simple pour comparer avec les modèles les plus complexes.

Linear Regression

Un modèle de régression linéaire est un modèle qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.

Pour limiter le sur-apprentissage, on peut utiliser une technique, la régularisation, qui consiste à contrôler simultanément l'erreur du modèle sur le jeu d'entraînement et la complexité du modèle. Deux modes de régularisation sont testés :

Régularisation Ridge : modèle de régression avec un terme de régularisation l2
Régularisation Lasso : modèle de régression avec un terme de régularisation l1

Decision Tree

Un Arbre de Décision est un algorithme de Machine Learning permettant de classifier des données en se basant sur des suites de conditions. C’est un modèle non linéaire de suite de décision binaire.

Random Forest

Un modèle de Random Forest est composé d’un ensemble d’Arbres de Décision. C’est donc un modèle ensembliste parallèle, composé de plusieurs Arbres de Décision.

Metrics

Afin de départager les différents modèles testés et choisir le plus performant, les métriques suivantes ont été utilisées :

R² : Coefficient de détermination, carré de la corrélation de Pearson, doit être maximisé.
MAE (Mean Absolute Error) & MAPE (Mean Absolute Percentage Error) : somme des erreurs absolues divisée par la taille de l’échantillon. Doit être minimisée.
RMSE (Root Mean Squarred Error) : racine de l’erreur quadratique moyenne. Doit être minimisée.
Computation time : temps de calcul par modèle.

Conclusion

Algorithme	R²	MAE	MAPE	RMSE	Temps de Calcul
Dummy Regressor	0.00	>> 1	>> 1	>> 1	<< 0.01 s
Linear Regression	0.78	0.54	0.26	0.71	<< 0.01 s
Regression Ridge	0.82	0.55	0.25	0.71	<< 0.01 s
Regression Lasso	0.80	0.53	0.25	0.70	0.12 s
Decision Tree	0.94	0.16	0.04	0.40	<< 0.01 s
Random Forest	0.96	0.12	0.03	0.31	0.48 s

L'algorithme sélectionné pour le Proof-of-Concept est la Random Forest.