L’apprentissage semi-supervisé est, pour l’essentiel, exactement ce qu’il semble être : un ensemble de données d’entraînement avec des ensembles de données étiquetés et non étiquetés. Cette méthode est particulièrement utile lorsqu’il est difficile d’extraire les caractéristiques pertinentes des données et que l’étiquetage de tous les exemples prend beaucoup de temps !
Une méthode d’entraînement populaire qui commence avec un ensemble relativement petit de données étiquetées consiste à utiliser des réseaux adversaires généraux (GAN), comme deux réseaux d’apprentissage profond (Deep Learning) en compétition, chacun essayant d’être plus malin que l’autre !
L’un des réseaux, appelé générateur, tente de créer de nouveaux points de données qui imitent les données d’apprentissage. L’autre réseau, le discriminateur, récupère les données nouvellement générées et évalue si elles font partie des données d’apprentissage ou si elles sont fausses.
Les réseaux s’améliorent dans une boucle de rétroaction positive : le discriminateur parvient mieux à séparer les faux des originaux et le générateur améliore sa capacité à créer des faux convaincants.
Exemple : images médicales telles que les tomodensitogrammes ou les IRM.