Ces diagrammes permettent de visualiser les relations au sein de matrices ou de grilles de données.
Heatmap #
Commençons par le diagramme le plus couramment utilisé, la carte thermique ou carte de chaleur (heatmap). La carte thermique te donnera une idée de la corrélation entre une variable et toutes les autres variables (numériques) de la base de données. Nous devons passer la matrice de corrélation à la carte thermique et elle tracera un graphique avec différentes couleurs, qui signifieront la corrélation.
Utilise la méthode pandas dataframe.corr()
pour obtenir les corrélations, puis passe-la à la méthode sns.heatmap(corr_matrix)
pour tracer la carte thermique. Voyons un exemple.
# Importer Seaborn import seaborn as sns # Pour voir les jeux de données proposés par seaborn print(sns.get_dataset_names()) # Utilisons un ensemble de données proposé par seaborn titanic = sns.load_dataset('titanic') # Pour afficher les 5 premières lignes titanic.head()
Intuitivement, nous pouvons dire que les personnes ayant des tarifs élevés devraient être en vie, car elles paient beaucoup pour le luxe et la sécurité, n’est-ce pas ? Réalisons une carte thermique pour recouper ces données et en tirer d’autres enseignements.
# Données d'échantillonnage sous forme de matrice de corrélation correlation_matrix = sns.load_dataset("titanic").corr(numeric_only=True) plt.figure(figsize=(10,8)) # Créer une carte thermique (heatmap) de la matrice de corrélation sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm") plt.title("Heatmap de corrélation du dataset Titanic") plt.show()
Comme tu peux le voir, il y a une gamme de couleurs pour distinguer la corrélation. Ici, les couleurs bleues signifient que les variables sont corrélées négativement, ce qui signifie qu’en augmentant une variable, l’autre diminuera. De même, pour les couleurs rouges, si une variable augmente, l’autre augmentera également.
Maintenant, si nous vérifions notre hypothèse, nous observons que la couleur à l’intersection de fare
et survived
est légèrement rougeâtre, mais pas tant que ça ! Cela signifie que notre hypothèse est vraie jusqu’à 25 % ! Nous constatons également que la couleur des hommes adultes et des survivants est bleu foncé, ce qui signifie que la plupart des hommes adultes n’ont pas pu survivre, ce qui est surprenant ! C’est ainsi que tu peux déduire la carte thermique.
Le point principal à retenir de la carte thermique c’est que si tu trouves des variables qui sont fortement corrélées, il est préférable de combiner ces colonnes car elles contribuent toutes deux à la même chose.
Cluster Map #
Enfin, la carte des clusters ! Ne penses-tu pas qu’il sera facile d’interpréter les résultats si les carrés de même couleur sont proches les uns des autres ? C’est exactement ce que fait la carte de clusters. L’objectif principal d’une carte de clusters est de révéler les clusters ou les groupes de lignes et de colonnes similaires.
Une carte de clusters est un type de carte thermique dans Seaborn qui non seulement affiche les données sous la forme d’une grille de cellules colorées, mais qui organise également les lignes et les colonnes de manière à regrouper les données similaires. Sur le côté de la carte thermique groupée, inclue des dendrogrammes pour en faire une carte de clusters. Les dendrogrammes sont des diagrammes arborescents qui montrent les relations hiérarchiques entre les lignes et les colonnes.
Utilise sns.clustermap(data.corr())
pour créer une Cluster Map.
# Charger un échantillon de données data = sns.load_dataset("titanic") # Créer une Cluster Map de la matrice de corrélation sns.clustermap(data.corr(numeric_only=True), annot=True, cmap="coolwarm", figsize=(8, 6)) plt.title("Cluster Map de la corrélation du dataset Titanic") plt.show()
- Si tu observes maintenant, les lignes sont réorganisées en fonction de leur degré de corrélation. Les variables qui sont plus fortement corrélées négativement entre elles sont placées à proximité les unes des autres, créant ainsi des groupes de variables apparentées. De même, les variables ayant une corrélation positive sont placées à proximité les unes des autres. C’est ce que fait une carte de clusters en pointant les clusters dans une carte thermique.
Références #
Conclusion #
Tu peux maintenant tirer parti de cette bibliothèque polyvalente pour créer toutes sortes de diagrammes catégoriels, univariés, bivariés, multivariés et matriciels, afin d’obtenir de superbes récits de données. J’espère que ce voyage à travers les possibilités de visualisation a dévoilé la remarquable polyvalence de Seaborn. Continue à explorer et à jouer avec, Seaborn est un outil polyvalent et tu peux faire beaucoup plus avec lui !