Aller au contenu
Moncoachdata
  • Accueil
  • Blog
  • Tutos
  • Coaching
  • Programme Data
Connexion
Moncoachdata

Maîtriser NumPy : Le compagnon indispensable pour les Data Lovers

  • Principes de base des tableaux Numpy
  • Inspection de tableaux array de NumPy
  • Opérations sur les tableaux NumPy
  • Travailler avec des tableaux Numpy
  • NumPy pour le nettoyage de données
  • NumPy pour l’analyse statistique
  • NumPy pour l’algèbre linéaire
  • Techniques avancées pour NumPy
  • Optimisation des performances avec NumPy

Pandas : Un manuel complet pour les Data Lovers

  • Structures de données Pandas
  • Chargement et inspection des données dans Pandas
  • Sélection et indexation des données avec Pandas
  • Nettoyage de données avec Pandas
  • Manipulation de données avec Pandas
  • Agrégations de données avec Pandas
  • Visualisations de données avec Pandas
  • Traitement des données de séries temporelles avec Pandas
  • Traitement des données catégorielles avec Pandas
  • Pandas : Sujets avancés

Maîtriser Matplotlib : Un guide complet pour la visualisation de données

  • Tracé de base Matplotlib
  • Types de diagrammes Matplotlib
  • Multiples subplots Matplotlib
  • Matplotlib : Fonctionnalités avancées

Maîtriser Seaborn : Démystifier les diagrammes complexes

  • Introduction Seaborn
  • Diagrammes catégoriels avec Seaborn
  • Diagrammes univariés avec Seaborn
  • Diagrammes bivariés avec Seaborn
  • Diagrammes multivariés avec Seaborn
  • Diagrammes matriciels avec Seaborn

Maîtriser Plotly : Laisse tes visualisations parler à travers Plotly

  • Modules importants de Plotly
  • Diagrammes de base avec Plotly
  • Plotly : diagrammes avancés

Machine Learning : Explorer ses nombreuses formes

  • Comment fonctionne le Machine Learning ?
  • Apprentissage automatique supervisé
  • Apprentissage Automatique non Supervisé
  • Apprentissage semi-supervisé
  • Apprentissage par renforcement
View Categories

Chargement et inspection des données dans Pandas

Pandas propose un large éventail de fonctions et de méthodes permettant de charger efficacement des données dans des DataFrames à partir de sources et de formats divers.

Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.) #

import pandas as pd 

# Charger des données à partir d'un fichier csv portant le nom - data.csv
df_csv = pd.read_csv('data.csv')

# Charger les données d'un fichier Excel portant le nom - data.xlsx
df_excel = pd.read_excel('data.xlsx')

# Tu peux spécifier une feuille spécifique à l'aide du paramètre sheet_name
df_sheet1 = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Créer un moteur SQLAlchemy
from sqlalchemy import create_engine
engine = create_engine('sqlite:///mydatabase.db')

# Charger des données à partir d'une table de base de données SQL
query = 'SELECT * FROM mytable'
df_sql = pd.read_sql_query(query, engine)

# Charger des données d'un tableau HTML sur une page web
url = 'https://example.com/data-table.html'
df_html_table = pd.read_html(url)

# Charger des données à partir d'un fichier JSON
df_json = pd.read_json('data.json')

# Charger des données à partir d'un fichier Parquet
df_parquet = pd.read_parquet('data.parquet')

Paramètres importants à garder à l’esprit pour l’utilisation courante de read_csv :

  1. filepath indique le chemin d’accès au fichier CSV que tu souhaites lire. Tu peux fournir un chemin de fichier (sous forme de chaîne), une URL ou un objet de type fichier.
  2. Pour remplacer les noms de colonnes, tu dois utiliser le paramètre names avec la liste des nouveaux noms de colonnes.
  3. sep signifie “separator” et définit le caractère utilisé pour séparer les champs dans le fichier CSV. La valeur par défaut est une virgule (,), mais tu peux spécifier d’autres caractères tels que des tabulations ('\t'), des points-virgules (';'), ou tout autre délimiteur personnalisé.
  4. Le paramètre index_col indique quelle(s) colonne(s) doit(vent) être utilisée(s) comme index des blocs de données. Ce paramètre peut être associé à un nom de colonne ou à un index de colonne (basé sur 0).
  5. skiprows te permet de sauter un nombre spécifique de lignes au début du fichier CSV. Cela peut être utile s’il y a des métadonnées ou des commentaires au début du fichier que tu veux ignorer.

Affichage des DataFrames #

C’est bien que nous ayons chargé les données, mais comment les voir, n’est-ce pas ? L’affichage d’un DataFrame est la première étape pour comprendre son contenu. Tu peux simplement taper le nom du DataFeame et exécuter la cellule pour voir les 5 premières et 5 dernières lignes. Pandas propose plusieurs autres méthodes pour afficher différentes parties de ton DataFrame :

  • .head(n) : Cette méthode affiche les n premières lignes de la base de données. Elle est utile pour obtenir un aperçu rapide de la structure des données sans te submerger d’informations, ou si tu souhaites simplement voir les noms des colonnes, tu peux utiliser .columns
  • .tail(n) : Semblable à .head(), cette méthode affiche les n dernières lignes du DataFrame. Elle est pratique pour vérifier la fin de l’ensemble de données.
  • .sample(n) : Si tu souhaites afficher des lignes aléatoires du DataFrame, utilise cette méthode. Cette méthode est utile pour explorer diverses parties de l’ensemble de données.

Exploration de données : shape, info, describe #

Pandas fournit des méthodes permettant d’obtenir des informations fondamentales sur tes données. Ce sont les premières choses que tu dois vérifier lorsque tu explores tes données.

  • .shape : Cette fonction donne un ensemble où le premier élément spécifie le nombre d’échantillons/rangs dans les données et le deuxième élément spécifie le nombre de colonnes.
  • .info() : Cette méthode fournit un résumé concis du DataFrame, y compris les types de données, les nombres non nuls et l’utilisation de la mémoire. C’est un excellent point de départ pour comprendre la structure des données, ou si tu veux simplement voir les types de données, tu peux utiliser .dtypes
  • .describe() : Cette méthode génère des statistiques de base pour chaque colonne numérique du DataFrame, telles que le nombre, la moyenne, l’écart type, les valeurs minimales et maximales.

Valeurs uniques, nombres de valeurs et statistiques de base #

Pour les données catégorielles ou discrètes, tu peux explorer les valeurs uniques et leurs fréquences :

  • .nunique() : Cette méthode calcule le nombre de valeurs uniques dans chaque colonne. Elle est pratique pour comprendre la diversité des données dans les colonnes catégorielles.
  • .column_name ou ['column_name'] : pour accéder à une colonne spécifique du DataFrame. Tu ne peux utiliser la deuxième approche que si le nom de la colonne contient des espaces.
# Les deux donnent les mêmes résultats
df.City
df['City']
  • .value_counts() : Utilise cette méthode sur une colonne spécifique pour compter les occurrences de chaque valeur unique. Cette méthode est particulièrement utile pour les colonnes catégorielles.
# Par défaut, les comptages de valeurs ne renvoient pas le nombre de valeurs manquantes.
df['City'].value_counts()

# utiliser dropna = False, afin d'obtenir également le nombre de valeurs manquantes ainsi que d'autres données.
df['City'].value_counts(dropna=False)
  • Statistiques de base : Tu peux calculer des statistiques supplémentaires pour des colonnes spécifiques, telles que la somme, le maximum, le minimum, la moyenne, la médiane ou le mode, en utilisant les fonctions mathématiques de Pandas :
df.Age.mean()   # dataframe.column_name.mean()
df.Salary.median()   # dataframe.column_name.median()
df.Gender.mode()   # dataframe.column_name.mode()
Guide Pandas Bases
T'en as pensé quoi ?
Partager ce tuto :
  • Facebook
  • X
  • LinkedIn
Structures de données PandasSélection et indexation des données avec Pandas
Table des matières
  • Lecture de données provenant de différentes sources (CSV, Excel, SQL, etc.)
  • Affichage des DataFrames
  • Exploration de données : shape, info, describe
  • Valeurs uniques, nombres de valeurs et statistiques de base

Apprentissage

  • Cours accéléré NumPy
  • Nos programmes Data
  • TOP 50 fonctions NumPy
  • MasterClass DS & ML
  • MasterClass Deep Learning
  • Mon Shot de Data Science
  • Tutoriels Data Science

Le site

  • Articles
  • Coaching
  • Communauté
  • Newsletter
  • Connexion

À propos

  • CGV
  • Contact
Payment Options
Reçois chaque semaine mes meilleures pratiques en Data Science :

© 2025 MonCoachData - Data Science & Machine Learning

YouTube Discord GitHub Linkedin RSS
Défiler vers le haut
  • Accueil
  • Blog
  • Tutos
  • Coaching
  • Programme Data
Connexion
Discord DiscordYouTube YouTube
Rechercher