Chargement et inspection des données dans Pandas

Pandas propose un large éventail de fonctions et de méthodes permettant de charger efficacement des données dans des DataFrames à partir de sources et de formats divers.

Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.) #

import pandas as pd 

# Charger des données à partir d'un fichier csv portant le nom - data.csv
df_csv = pd.read_csv('data.csv')

# Charger les données d'un fichier Excel portant le nom - data.xlsx
df_excel = pd.read_excel('data.xlsx')

# Tu peux spécifier une feuille spécifique à l'aide du paramètre sheet_name
df_sheet1 = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Créer un moteur SQLAlchemy
from sqlalchemy import create_engine
engine = create_engine('sqlite:///mydatabase.db')

# Charger des données à partir d'une table de base de données SQL
query = 'SELECT * FROM mytable'
df_sql = pd.read_sql_query(query, engine)

# Charger des données d'un tableau HTML sur une page web
url = 'https://example.com/data-table.html'
df_html_table = pd.read_html(url)

# Charger des données à partir d'un fichier JSON
df_json = pd.read_json('data.json')

# Charger des données à partir d'un fichier Parquet
df_parquet = pd.read_parquet('data.parquet')

Paramètres importants à garder à l’esprit pour l’utilisation courante de read_csv :

filepath indique le chemin d’accès au fichier CSV que tu souhaites lire. Tu peux fournir un chemin de fichier (sous forme de chaîne), une URL ou un objet de type fichier.
Pour remplacer les noms de colonnes, tu dois utiliser le paramètre names avec la liste des nouveaux noms de colonnes.
sep signifie “separator” et définit le caractère utilisé pour séparer les champs dans le fichier CSV. La valeur par défaut est une virgule (,), mais tu peux spécifier d’autres caractères tels que des tabulations ('\t'), des points-virgules (';'), ou tout autre délimiteur personnalisé.
Le paramètre index_col indique quelle(s) colonne(s) doit(vent) être utilisée(s) comme index des blocs de données. Ce paramètre peut être associé à un nom de colonne ou à un index de colonne (basé sur 0).
skiprows te permet de sauter un nombre spécifique de lignes au début du fichier CSV. Cela peut être utile s’il y a des métadonnées ou des commentaires au début du fichier que tu veux ignorer.

Affichage des DataFrames #

C’est bien que nous ayons chargé les données, mais comment les voir, n’est-ce pas ? L’affichage d’un DataFrame est la première étape pour comprendre son contenu. Tu peux simplement taper le nom du DataFeame et exécuter la cellule pour voir les 5 premières et 5 dernières lignes. Pandas propose plusieurs autres méthodes pour afficher différentes parties de ton DataFrame :

.head(n) : Cette méthode affiche les n premières lignes de la base de données. Elle est utile pour obtenir un aperçu rapide de la structure des données sans te submerger d’informations, ou si tu souhaites simplement voir les noms des colonnes, tu peux utiliser .columns
.tail(n) : Semblable à .head(), cette méthode affiche les n dernières lignes du DataFrame. Elle est pratique pour vérifier la fin de l’ensemble de données.
.sample(n) : Si tu souhaites afficher des lignes aléatoires du DataFrame, utilise cette méthode. Cette méthode est utile pour explorer diverses parties de l’ensemble de données.

Exploration de données : shape, info, describe #

Pandas fournit des méthodes permettant d’obtenir des informations fondamentales sur tes données. Ce sont les premières choses que tu dois vérifier lorsque tu explores tes données.

.shape : Cette fonction donne un ensemble où le premier élément spécifie le nombre d’échantillons/rangs dans les données et le deuxième élément spécifie le nombre de colonnes.
.info() : Cette méthode fournit un résumé concis du DataFrame, y compris les types de données, les nombres non nuls et l’utilisation de la mémoire. C’est un excellent point de départ pour comprendre la structure des données, ou si tu veux simplement voir les types de données, tu peux utiliser .dtypes
.describe() : Cette méthode génère des statistiques de base pour chaque colonne numérique du DataFrame, telles que le nombre, la moyenne, l’écart type, les valeurs minimales et maximales.

Valeurs uniques, nombres de valeurs et statistiques de base #

Pour les données catégorielles ou discrètes, tu peux explorer les valeurs uniques et leurs fréquences :

.nunique() : Cette méthode calcule le nombre de valeurs uniques dans chaque colonne. Elle est pratique pour comprendre la diversité des données dans les colonnes catégorielles.
.column_name ou ['column_name'] : pour accéder à une colonne spécifique du DataFrame. Tu ne peux utiliser la deuxième approche que si le nom de la colonne contient des espaces.

# Les deux donnent les mêmes résultats
df.City
df['City']

.value_counts() : Utilise cette méthode sur une colonne spécifique pour compter les occurrences de chaque valeur unique. Cette méthode est particulièrement utile pour les colonnes catégorielles.

# Par défaut, les comptages de valeurs ne renvoient pas le nombre de valeurs manquantes.
df['City'].value_counts()

# utiliser dropna = False, afin d'obtenir également le nombre de valeurs manquantes ainsi que d'autres données.
df['City'].value_counts(dropna=False)

Statistiques de base : Tu peux calculer des statistiques supplémentaires pour des colonnes spécifiques, telles que la somme, le maximum, le minimum, la moyenne, la médiane ou le mode, en utilisant les fonctions mathématiques de Pandas :

df.Age.mean()   # dataframe.column_name.mean()
df.Salary.median()   # dataframe.column_name.median()
df.Gender.mode()   # dataframe.column_name.mode()

Maîtriser NumPy : Le compagnon indispensable pour les Data Lovers

Pandas : Un manuel complet pour les Data Lovers

Maîtriser Matplotlib : Un guide complet pour la visualisation de données

Maîtriser Seaborn : Démystifier les diagrammes complexes

Maîtriser Plotly : Laisse tes visualisations parler à travers Plotly

Machine Learning : Explorer ses nombreuses formes

Chargement et inspection des données dans Pandas

Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.) #

Affichage des DataFrames #

Exploration de données : shape, info, describe #

Valeurs uniques, nombres de valeurs et statistiques de base #

T'en as pensé quoi ?

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :

Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.) #

Affichage des DataFrames #

Exploration de données : shape, info, describe #

Valeurs uniques, nombres de valeurs et statistiques de base #

T'en as pensé quoi ?

Partager ce tuto :

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :