Pandas propose un large éventail de fonctions et de méthodes permettant de charger efficacement des données dans des DataFrames à partir de sources et de formats divers.
Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.) #
import pandas as pd # Charger des données à partir d'un fichier csv portant le nom - data.csv df_csv = pd.read_csv('data.csv') # Charger les données d'un fichier Excel portant le nom - data.xlsx df_excel = pd.read_excel('data.xlsx') # Tu peux spécifier une feuille spécifique à l'aide du paramètre sheet_name df_sheet1 = pd.read_excel('data.xlsx', sheet_name='Sheet1') # Créer un moteur SQLAlchemy from sqlalchemy import create_engine engine = create_engine('sqlite:///mydatabase.db') # Charger des données à partir d'une table de base de données SQL query = 'SELECT * FROM mytable' df_sql = pd.read_sql_query(query, engine) # Charger des données d'un tableau HTML sur une page web url = 'https://example.com/data-table.html' df_html_table = pd.read_html(url) # Charger des données à partir d'un fichier JSON df_json = pd.read_json('data.json') # Charger des données à partir d'un fichier Parquet df_parquet = pd.read_parquet('data.parquet')
Paramètres importants à garder à l’esprit pour l’utilisation courante de read_csv :
filepath
indique le chemin d’accès au fichier CSV que tu souhaites lire. Tu peux fournir un chemin de fichier (sous forme de chaîne), une URL ou un objet de type fichier.- Pour remplacer les noms de colonnes, tu dois utiliser le paramètre
names
avec la liste des nouveaux noms de colonnes. sep
signifie “separator” et définit le caractère utilisé pour séparer les champs dans le fichier CSV. La valeur par défaut est une virgule (,
), mais tu peux spécifier d’autres caractères tels que des tabulations ('\t'
), des points-virgules (';'
), ou tout autre délimiteur personnalisé.- Le paramètre
index_col
indique quelle(s) colonne(s) doit(vent) être utilisée(s) comme index des blocs de données. Ce paramètre peut être associé à un nom de colonne ou à un index de colonne (basé sur 0). skiprows
te permet de sauter un nombre spécifique de lignes au début du fichier CSV. Cela peut être utile s’il y a des métadonnées ou des commentaires au début du fichier que tu veux ignorer.
Affichage des DataFrames #
C’est bien que nous ayons chargé les données, mais comment les voir, n’est-ce pas ? L’affichage d’un DataFrame est la première étape pour comprendre son contenu. Tu peux simplement taper le nom du DataFeame et exécuter la cellule pour voir les 5 premières et 5 dernières lignes. Pandas propose plusieurs autres méthodes pour afficher différentes parties de ton DataFrame :
.head(n)
: Cette méthode affiche lesn
premières lignes de la base de données. Elle est utile pour obtenir un aperçu rapide de la structure des données sans te submerger d’informations, ou si tu souhaites simplement voir les noms des colonnes, tu peux utiliser.columns
.tail(n)
: Semblable à.head()
, cette méthode affiche lesn
dernières lignes du DataFrame. Elle est pratique pour vérifier la fin de l’ensemble de données..sample(n)
: Si tu souhaites afficher des lignes aléatoires du DataFrame, utilise cette méthode. Cette méthode est utile pour explorer diverses parties de l’ensemble de données.
Exploration de données : shape, info, describe #
Pandas fournit des méthodes permettant d’obtenir des informations fondamentales sur tes données. Ce sont les premières choses que tu dois vérifier lorsque tu explores tes données.
.shape
: Cette fonction donne un ensemble où le premier élément spécifie le nombre d’échantillons/rangs dans les données et le deuxième élément spécifie le nombre de colonnes..info()
: Cette méthode fournit un résumé concis du DataFrame, y compris les types de données, les nombres non nuls et l’utilisation de la mémoire. C’est un excellent point de départ pour comprendre la structure des données, ou si tu veux simplement voir les types de données, tu peux utiliser.dtypes
.describe()
: Cette méthode génère des statistiques de base pour chaque colonne numérique du DataFrame, telles que le nombre, la moyenne, l’écart type, les valeurs minimales et maximales.
Valeurs uniques, nombres de valeurs et statistiques de base #
Pour les données catégorielles ou discrètes, tu peux explorer les valeurs uniques et leurs fréquences :
.nunique()
: Cette méthode calcule le nombre de valeurs uniques dans chaque colonne. Elle est pratique pour comprendre la diversité des données dans les colonnes catégorielles..column_name
ou['column_name']
: pour accéder à une colonne spécifique du DataFrame. Tu ne peux utiliser la deuxième approche que si le nom de la colonne contient des espaces.
# Les deux donnent les mêmes résultats df.City df['City']
.value_counts()
: Utilise cette méthode sur une colonne spécifique pour compter les occurrences de chaque valeur unique. Cette méthode est particulièrement utile pour les colonnes catégorielles.
# Par défaut, les comptages de valeurs ne renvoient pas le nombre de valeurs manquantes. df['City'].value_counts() # utiliser dropna = False, afin d'obtenir également le nombre de valeurs manquantes ainsi que d'autres données. df['City'].value_counts(dropna=False)
- Statistiques de base : Tu peux calculer des statistiques supplémentaires pour des colonnes spécifiques, telles que la somme, le maximum, le minimum, la moyenne, la médiane ou le mode, en utilisant les fonctions mathématiques de Pandas :
df.Age.mean() # dataframe.column_name.mean() df.Salary.median() # dataframe.column_name.median() df.Gender.mode() # dataframe.column_name.mode()