Apprentissage Automatique non Supervisé

Temps de lecture: 2 minutes

Comme son nom l’indique, il s’agit de l’opposé de l’apprentissage automatique supervisé. Dans l’apprentissage supervisé, nous avons une étiquette d’entrée et de sortie, alors que dans l’apprentissage non supervisé, il y a des données d’entrée, mais elles ne sont pas explicitement étiquetées ! Ces algorithmes sont capables d’apprendre à partir des données en trouvant des modèles implicites.

Prenons l’exemple d’un algorithme qui montre différents fruits d’un panier et qui, sur la base de leur forme, de leur taille et de leur couleur, les répartit en différents groupes ; lorsque tu montres un nouveau fruit, il fait une prédiction sur le groupe.

Les algorithmes non supervisés identifient les données sur la base de divers facteurs tels que leur densité, leurs structures, les segments similaires et d’autres caractéristiques similaires.

Quelques applications :

Systèmes de recommandation
Analyse du comportement des clients
Regroupement d’articles d’actualité

Et bien d’autres encore…

Types d’apprentissage non supervisé #

D’une manière générale, nous pouvons les classer en 5 catégories, à savoir :

Algorithmes de clustering
Réduction de la dimensionnalité
Détection des anomalies
Apprentissage des règles d’association
Autoencodeurs

Comprenons l’objectif de ces catégories et explorons les algorithmes qui en font partie.

Algorithmes de clustering #

La clustering (ou segmentation) est une technique qui consiste à regrouper dans un même groupe des ensembles d’objets similaires qui sont différents des objets de l’autre groupe sur la base de leurs similitudes. Comme dans le cas de la segmentation du panier de fruits ci-dessus.

Algorithmes dans la catégorie des clustering :

K-Means
DBSCAN
Clustering hiérarchique
Déplacement de la moyenne

Réduction de la dimensionnalité #

La réduction de la dimensionnalité revient à simplifier un problème complexe en se concentrant sur ses aspects les plus importants. Il s’agit d’une technique qui réduit le nombre de feature/caractéristiques (dimensions) d’un ensemble de données tout en conservant ses informations essentielles. Cette simplification rend l’analyse des données plus efficace et plus facile à visualiser.

Algorithmes dans la catégorie Réduction de la dimensionnalité :

Analyse en composantes principales (ACP)
t-Distributed Stochastic Neighbor Embedding (t-SNE) (intégration des voisins stochastiques distribués)

Détection d’anomalie #

La détection d’anomalies revient à trouver l’intrus dans un groupe. Il s’agit d’une technique utilisée dans l’analyse des données pour identifier les points de données inhabituels ou rares qui ne correspondent pas aux modèles attendus, c’est-à-dire les valeurs aberrantes. Cette technique est très utile pour détecter les anomalies dans divers domaines, de la détection des fraudes dans les transactions financières à l’identification des dysfonctionnements des équipements dans les systèmes industriels. Entraîner un modèle sur une seule classe – si quelque chose se trouve en dehors de cette classe, il peut s’agir d’une anomalie.

Algorithmes de détection d’anomalies :

K-Means à une classe
SVM à une classe
Forêt d’isolement (Isolation Forest)

Apprentissage par règles d’association #

L’apprentissage par règles d’association permet de trouver des liens intéressants entre les articles achetés dans un magasin. Il s’agit d’une technique d’apprentissage automatique qui permet de découvrir des relations dans les données et d’identifier des modèles, des tendances et des associations entre des éléments ou des événements. L’apprentissage par règles d’association est un outil précieux pour comprendre le comportement des consommateurs, optimiser les stocks et améliorer les recommandations personnalisées.

Algorithmes dans la catégorie Apprentissage par règles d’association :

Apriori
FP-Growth (croissance des motifs fréquents)
Algorithme Eclat

Autoencoders #

Il s’agit d’un type de réseau de neurones qui prend des données complexes, les compresse en un code, puis tente de recréer les données d’entrée à partir d’un code résumé. Ce processus de compression-décompression peut être utilisé pour supprimer le bruit des données visuelles telles que les images, les vidéos et les scanners médicaux afin d’en améliorer la qualité.

Maîtriser NumPy : Le compagnon indispensable pour les Data Lovers

Pandas : Un manuel complet pour les Data Lovers

Maîtriser Matplotlib : Un guide complet pour la visualisation de données

Maîtriser Seaborn : Démystifier les diagrammes complexes

Maîtriser Plotly : Laisse tes visualisations parler à travers Plotly

Machine Learning : Explorer ses nombreuses formes

Apprentissage Automatique non Supervisé

Types d’apprentissage non supervisé #

Algorithmes de clustering #

Réduction de la dimensionnalité #

Détection d’anomalie #

Apprentissage par règles d’association #

Autoencoders #

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :

Types d’apprentissage non supervisé #

Algorithmes de clustering #

Réduction de la dimensionnalité #

Détection d’anomalie #

Apprentissage par règles d’association #

Autoencoders #

Partager ce tuto :

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :