Pandas fournit deux structures de données fondamentales : Series
et DataFrame
, qui sont les éléments de base de la manipulation et de l’analyse des données en Python. La compréhension de ces structures de données est essentielle pour une manipulation efficace des données avec Pandas.
Series #
Une série est un tableau unidimensionnel étiqueté qui peut contenir différents types de données, tels que des nombres entiers, des nombres flottants, des chaînes de caractères ou même des objets personnalisés. Elle est similaire à une colonne dans une feuille de calcul Excel ou à une colonne unique dans une table SQL.
Les principales caractéristiques de la série sont les suivantes :
- Étiquetage : Chaque élément d’une série possède une étiquette ou un index, ce qui facilite l’accès et la manipulation des données.
- Données homogènes : Contrairement aux listes en Python, les séries stockent généralement des données du même type, ce qui garantit leur cohérence.
- Opérations vectorielles : Tu peux effectuer des opérations vectorielles sur les séries, ce qui les rend efficaces pour les calculs par éléments. Cette fonctionnalité te permet d’effectuer efficacement des opérations sur des colonnes entières ou sur des séries sans avoir recours à des boucles explicites. Tu peux ajouter, soustraire et multiplier les séries (colonnes d’un DataFramee) avec une série ou un scalaire.
Création d’une série #
import pandas as pd data = [1, 2, 3, 4, 5] series = pd.Series(data, name="MySeries") # Opérations vectorisées des séries series = series * 2
DataFrame #
Un DataFrame est une structure de données tabulaire bidimensionnelle avec des axes étiquetés (lignes et colonnes). Elle ressemble à une feuille de calcul ou à une table SQL et constitue la principale structure de données pour l’analyse des données dans Pandas.
Les principales caractéristiques des DataFrames sont les suivantes :
- Colonnes : Chaque colonne d’un DataFrame est une série, ce qui signifie qu’elle peut contenir différents types de données.
- Indexation : Les DataFrames ont des index de ligne et de colonne, ce qui permet une sélection flexible des données.
- Alignement des données : Comme les séries, les DataFrames peuvent aligner les données en fonction des étiquettes, ce qui rend les opérations faciles et intuitives.
- Intégration des données : Tu peux fusionner, joindre et concaténer des DataFrames pour combiner et analyser des données provenant de diverses sources.
Création d’un DataFrame et renommage des colonnes #
import pandas as pd data = { "Name": ["Alice", "Bob", "Charlie", "David"], "Age": [25, 30, 35, 40], "City": ["New York", "San Francisco", "Los Angeles", "Chicago"] } df = pd.DataFrame(data) # Renommer la colonne 'Name' en 'Person_Name' # inplace=True, permet d'enregistrer les modifications. df.rename(columns={'Name':'Person_Name', inplace=True}
La compréhension de ces deux structures de données fondamentales constitue la base d’une manipulation et d’une analyse efficaces des données à l’aide de Pandas. Elles te permettent de charger, de nettoyer, d’explorer et de transformer les données de différentes manières, ce qui fait de Pandas un outil puissant dans la boîte à outils du Data Scientist.