Nos projets

Exemples de réalisations par PGData

Segmentation clientèle & définition de profil utilisateur

Contexte

Un site web souhaite une segmentation de ses clients pour son service d'e-commerce afin de définir des profils d’utilisateurs et adapter ses campagnes de communication ciblées. L’objectif est donc de comprendre les différents types de clients à travers leur comportement, leurs habitudes et leurs données personnelles. Une proposition de contrat de maintenance est finalement élaborée, basée sur une analyse de stabilité des segments au cours du temps.

Données

Les informations sont séparées en neuf groupes de données regroupant des informations sur les clients, leur localisation, le type de produits achetés, les transferts monétaires, les avis laissés.

Méthode de Segmentation

La méthode utilisée pour la segmentation ou regroupement ("clustering") des clients du site est la méthode RFM, qui permet de segmenter sa base clients selon l’intention d’achat et de les cibler efficacement.

La méthode est nommée RFM par le type de variables considérées pour la segmentation :

Récence : la date du dernier achat. Notez bien que l’on part du principe qu’une personne qui a acheté récemment sur le site a plus de chances de revenir commander.
Fréquence : le nombre d’achats réalisé sur une période donnée. Plus un client achète régulièrement sur le site, plus il y a de chances pour qu’il y achète à nouveau. On analyse ici son niveau de fidélité.
Montant : la somme des achats cumulés sur une période donnée. Les gros acheteurs répondent mieux que les petits. On mesure ici la valeur client.

D’autres variables peuvent être ajoutées pour renforcer le modèle, comme

Nombre d’articles moyen par panier
Note moyenne de satisfaction

Cette méthode va permettre entre autre de :

Sauver des coûts inutiles, en mettant de côté les clients peu ou pas actifs.
Accroitre le ROI des emails marketing significativement en envoyant aux clients fidèles pour renforcer cette fidélité.
Relancer les inscrits inactifs via une campagne de réengagement pour re-capter leur intérêt.

Analyse exploratoire

Analyse Univariée

Récence

La distribution de la récence semble comprise entre 44 et 772 jours.

Fréquence

Une écrasante majorité (97%) des clients n’ont commandé qu’une seule fois.

Montant

La majorité des montants se situe sous la barre des 50 BRL. L’écart-type est cependant important.

Note de satisfaction

Les notes de satisfaction présentent une majorité de note maximale.

Nombre moyen d’articles par panier

Analyse Bivariée

Face à la possibilité d’ajouter des variables pour renforcer la segmentation, il est important de s’assurer que les variables ajoutées ne sont pas corrélées à celles déjà sélectionnées.

Aucunes variables ne semblent fortement corrélées.

Modélisation

Plusieurs options de clustering sont envisagées.

Hierarchical clustering

Agglomère des individus/clusters les plus proches en clusters de moins en moins nombreux. Le choix du nombre optima de clusters se fait visuellement.

Cependant, la complexité algorithmique de ce type de modèle est lourde et ne convient pas à une quantité de données importante, comme celui étudié ici.

DBScan

La construction de clusters se fait par densité de voisinage, qui doit être défini par avance.

La densité choisie est de 100. Plusieurs tailles de voisinage ont été testées. Cependant, ce type de modèle n’est pas adapté aux densités d’individus trop faibles, comme dans le dataset étudié ici.

K-Means

L'algorithme kmeans est le plus adapté à notre problématique. Il regroupe les observations avec une haute similarité.
Le nombre optimal de clusters doit être préalablement déterminé.

Le modèle est testé pour différents nombre de clusters, et la SSE (Sum of Squarred Errors) est calculée à chaque fois. Le nombre optimal de clusters est sélectionné au “coude” de la courbe, ici 5.

Il est également possible de déterminer le nombre optimal de clusters grâce au coefficient de silhouette.

Afin d’obtenir des clusters de tailles et répartition équivalentes, on peut voir que le nombre de clusters optimal semble être de 5.

On fixe donc k = 5 pour le modèle.

Résultats

Clusters & Profils

Clusters	Utilisateurs	% utilisateurs	Récence moyenne (jours)	Fréquence moyenne	Montant moyen	Nombre moyen d'articles	Note moyenne de satisfaction
1	11295	12	441 +/- 95	1.032 +/- 0.19	158 +/- 206	1.09 +/- 0.32	3.7 +/- 0.48
2	15240	16	182 +/- 74	1.044 +/- 0.24	161 +/- 208	1.08 +/- 0.33	3.6 +/- 0.46
3	31550	33	170 +/- 72	1.038 +/- 0.23	160 +/- 210	1.08 +/- 0.29	4.9 +/- 0.04
4	13273	14	289 +/- 144	1.020 +/- 0.15	193 +/- 293	1.21 +/- 0.49	1.2 +/- 0.41
5	23362	25	436 +/- 95	1.030 +/- 0.19	163 +/- 227	1.09 +/- 0.30	5.0 +/- 0.03

Contrat de maintenance

Il est nécessaire de trouver la fréquence optimale de mise à jour pour la stabilité du système de segmentation (répartition des utilisateurs en groupes stables). Pour cela, on utilise l’ARI (Adjusted Rand Index), qui donne une mesure de la stabilité des groupes, et on calcule la moyenne de cette valeur en fonction de la période de mise à jour.

Conclusion

Il est possible d’identifier trois profils de clients :

Des clients déjà fidélisés : les groupes 2 et 3 viennent souvent, dépensent moins mais régulièrement et semblent satisfaits du site
Des clients à fort potentiel : le groupe 4 est venu le plus récemment, n’est pas encore fidélisé mais a dépensé plus que les autres, avec une note de satisfaction assez faible. Clients à relancer.
Deux groupes de clients peu intéressants pour notre étude, à laisser de côté.

La fréquence de mise à jour recommandée du système de segmentation est de 15 jours, qu’on peut pousser à 7 jours pour une meilleure stabilité.