La visualisation des données est un moyen puissant d’explorer et de communiquer des informations à partir de tes données.
Recherche de corrélation #
La corrélation est essentiellement la manière dont une variable est liée à d’autres variables. Pour obtenir la corrélation de chaque colonne avec toutes les autres colonnes, tu peux utiliser .corr()
, les nombres proches de +1 sont fortement corrélés positivement et les nombres proches de -1 sont fortement corrélés négativement.
Tri des données et création de graphiques de base #
.sort_values()
: Cette méthode permet de trier une série ou un DataFrame. Tu peux utiliser le paramètreby
pour spécifier la colonne sur laquelle tu souhaites effectuer le tri, et le paramètreascending
pour définir l’ordre croissant ou décroissant.- Voici quelques graphiques que tu peux tracer avec pandas. Dans les champs X et y, tu peux spécifier la série que tu souhaites tracer.
- Diagramme linéaire :
df.plot(x='X', y='Y', kind='line')
- Diagramme en barres :
df.plot(x='Category', y='Count', kind='bar')
- Diagramme Barh (Diagramme à barres horizontales) :
df.plot(x='Count', y='Category', kind='barh')
- Histogramme :
df['Value'].plot(kind='hist', bins=20)
- Diagramme en boîte :
df.plot(y='Value', kind='box')
- Diagramme d’aire :
df.plot(x='X', y='Y', kind='area')
- Diagramme de dispersion :
df.plot(x='X', y='Y', kind='scatter')
- Diagramme circulaire :
df['Category'].value_counts().plot(kind='pie')
- Diagramme Hexbin :
df.plot(x='X', y='Y', kind='hexbin', gridsize=20)
- Diagramme à barres empilées :
df.pivot_table(index='Category', columns='Subcategory', values='Value', aggfunc='sum').plot(kind='bar', stacked=True)
- Diagramme linéaire avec plusieurs lignes :
df.plot(x=’Date’,y=[‘Series1’,’Series2'],kind=’line’)
Diagrammes avancés :
12. Diagramme KDE (Estimation de la densité du noyau) : df['Value'].plot(kind='kde')
13. Diagramme de densité : df['Value'].plot(kind='density')
14. Diagramme boxen : df.plot(y='Value', kind='boxen')