Nos projets

Exemples de réalisations par PGData

Contexte

Sur un site type place de marché, des vendeurs proposent des articles à des acheteurs en postant des images de l’article et en fournissant une description détaillée. Afin de rendre l’expérience utilisateur (vendeurs et acheteurs) la plus fluide possible, et dans l’optique d’un passage à l’échelle, une automatisation de l’attribution de la catégorie d’un article est nécessaire.

Ce projet étudie la faisabilité d’un moteur de classification des articles en différentes catégories prédéfinies, avec un niveau de précision suffisant, basé sur une image et une description.

La méthodologie sera la suivante :

Une étape de pre-processing sur le texte et l’image
Une étape d’extraction des variables sur le texte et l’image
Une réduction des variables
Une étape de clustering d’après les variables extraites
Enfin, une comparaison aux catégories réelles des produits pour évaluation du modèle de classification

Données

Une feuille de données contient toutes les informations produits, avec entre autres la description nécessaire pour le traitement du langage, ainsi qu’un dossier d’image des produits. Elles imitent le type de données auxquelles on peut se retrouver confronté.e lors de ce type de projet.

Analyse exploratoire

Analyse Univariée

Analysons tout d'abord les données non structurées : la description des produits, leur nom, les catégories retrouvées ainsi que les mots qui ressortent le plus pour certaines catégories.

Description

Les descriptions possèdent entre 13 et 587 mots, avec une majorité entre 13 et 100.

Nom du produit

Les noms des produits ont entre 2 et 27 mots, avec une majorité entre 4 et 10 mots.

Ces deux variables seront utilisées pour la partie traitement du langage du modèle de classification.

Catégories

Sept catégories sont identifiées pour les produits.

La répartition est parfaite, puisque les données ne sont pas "réelles".

On peut également regarder les "Wordcloud", ou nuages de mots, par catégorie de produit, qui permettent d'avoir un aperçu visuel des tendances par catégorie :

Cuisine

Ordinateurs

Préparation des données

Une étape de pre-processing est nécessaire pour le texte et les images.

Pour le texte, il faut enlever le superflu (majuscule, caractère non-ASCII, nombres, ponctuation...), accéder à leur racine, le découper en morceaux, ou "tokens".

Pour l'image, il faut rendre l'image plus lisse, enlever la couleur, et réduire le bruit.

Texte

Les variables “Description” et “Nom du produit” sont regroupées. Les traitements suivants sont ensuite appliqués :

lower : retire les majuscules
expand_contraction : le texte étant en anglais, il est nécessaire de développer les contractions
noise_removal : retire les urls, les HTML tags, les caractères non-ASCII…
punctuation removal : retire la ponctuation
number removal : retire les nombres

On poursuit avec :

Tokenisation : sépare les phrase en liste de tokens
Stopwords : retire les mots très fréquents et sans impact
Lemmatization : ne garde que la racine d’un mot en tenant compte du contexte.

Image

Afin de rendre l’extraction de variables plus efficace, il est nécessaire de traiter les images en amont. Pour les techniques Bag-of-Features telle que Sift ou ORB, on applique dans l’ordre :

grey scale : convertit l’image en niveaux de gris
histogram equalization : amélioration du contraste
histogram stretching : correction de l’exposition
mean filter : atténuation du bruit par moyennage local

Cependant, les techniques CNN telle que VGG16 ont leur propre pre-processing implémenté dans leur bibliothèque.

Modèle

La partie texte et la partie image sont développées et évaluées séparément. Elles sont ensuite évaluées ensemble, afin de déterminer l’intérêt de coupler les deux modèles.

Extraction des variables

Texte

Deux types de méthodes sont disponibles :

Les algorithmes de type bag-of-word : donne une représentation réduite et simplifiée d’un document texte sous forme de vecteurs basée sur des critères spécifiques tels que la fréquence des mots.
Exemple : CountVectorizer, TF-IDF. Avantages : rapide, fonctionne avec des mots inconnus.
Inconvénients : ne considère pas la place du mot dans la phrase, et ne capture pas le sens du mot.

les méthodes dites Sentence Embedding : donnes des représentations vectorielles numériques de la sémantique ou du sens des mots, y compris le sens littéral et implicite. Ainsi, ces vecteurs de mots peuvent capturer leur connotation, et sont combinés en un vecteur dense par phrase.
Exemple : Word2Vec, BERT, USE Avantage : souvent pré-entraîné, prend en compte la position du mot, comprend la sémantique.
Inconvénients : ne considère pas les mots hors corpus, plus complexe, un côté “black box”avec absence de contrôle des paramètres, pré-entraîné sur un corpus non vérifiables.

Image

Pour l’extraction de variables à partir d’images, plusieurs types de méthodes sont possibles.

les algorithmes dits Bag-of-visual-words : prend une image et retourne les points clés de cette image sous forme de variables/vecteurs, l’empreinte numérique de l’image, invariante, qu’importe les transformations.
Exemple : SIFT, ORB
les algorithmes dits CNN Transfer Learning : réseau de neurones convolutifs pré-entrainé prenant une image en entrée et retournant automatiquement les caractéristiques de cette image, par extraction et hiérarchisation automatiques desdits caractéristiques, ou "features".
Exemple : VGG16, en Standalone Feature Extractor

Réduction des variables & Clustering

La quantité de variables obtenues après traitement est trop importante. Il nous faut utiliser une méthode de réduction du nombre de variables, puis appliquer un algorithme de machine learning non supervisé qui organise et classe les différents objets en groupes ou en clusters en fonction des similitudes ou des modèles, appelé clustering.

La méthode de réduction utilisée est t-SNE.
La méthode de clustering utilisées est k-Means.

On trace ensuite une projection des produits avec catégorisation réelle et calculée.

Evaluation

Afin d’évaluer la précision de la méthode de classification utilisée et l’efficacité de l’algorithme d’extraction de variables testé, on calcule l’ARI (Adjusted Rand Index), qui donne une mesure de similarité entre les catégories calculées et les réelles. On considère également le temps de calcul, autre élément important.

Texte

Algorithme	ARI	Temps de calcul
Countvectorizer	0.49	19 s
TF-IDF	0.50	18 s
Word2Vec	0.41	15 s
BERT	0.32	2 min 30 s
USE	0.63	10 s

USE semble être la méthode adaptée à notre problème pour la partie traitement de texte.

Image

Algorithme	ARI	Temps de calcul
SIFT	0.04	10 min 45 s
ORB	0.03	1 min 50 s
VGG16	0.45	4 min

VGG16 est l’algorithme le plus efficace pour la partie traitement d'image.

Text & Image

Algorithme	ARI	Temps de calcul
USE + VGG16	0.65	4 min 20 s

Conclusion

L’association de modèle de classification pour image et texte permet d’atteindre un ARI de 0.65. La faisabilité du moteur de classification est donc prouvée.

D’un point de vue performance + temps de calcul, l’utilisation du texte uniquement peut être envisagée.

Nos projets

Moteur de classification automatique

Contexte

Données

Analyse exploratoire

Analyse Univariée

Description

Nom du produit

Catégories

Cuisine

Ordinateurs

Préparation des données

Texte

Image

Modèle

Extraction des variables

Texte

Image

Réduction des variables & Clustering

Evaluation

Texte

Image

Text & Image

Conclusion

Menu principal

Légal