Aller au contenu
Moncoachdata
  • Accueil
  • Blog
  • Tutos
  • Coaching
  • Programme Data
Connexion
Moncoachdata

Maîtriser NumPy : Le compagnon indispensable pour les Data Lovers

  • Principes de base des tableaux Numpy
  • Inspection de tableaux array de NumPy
  • Opérations sur les tableaux NumPy
  • Travailler avec des tableaux Numpy
  • NumPy pour le nettoyage de données
  • NumPy pour l’analyse statistique
  • NumPy pour l’algèbre linéaire
  • Techniques avancées pour NumPy
  • Optimisation des performances avec NumPy

Pandas : Un manuel complet pour les Data Lovers

  • Structures de données Pandas
  • Chargement et inspection des données dans Pandas
  • Sélection et indexation des données avec Pandas
  • Nettoyage de données avec Pandas
  • Manipulation de données avec Pandas
  • Agrégations de données avec Pandas
  • Visualisations de données avec Pandas
  • Traitement des données de séries temporelles avec Pandas
  • Traitement des données catégorielles avec Pandas
  • Pandas : Sujets avancés

Maîtriser Matplotlib : Un guide complet pour la visualisation de données

  • Tracé de base Matplotlib
  • Types de diagrammes Matplotlib
  • Multiples subplots Matplotlib
  • Matplotlib : Fonctionnalités avancées

Maîtriser Seaborn : Démystifier les diagrammes complexes

  • Introduction Seaborn
  • Diagrammes catégoriels avec Seaborn
  • Diagrammes univariés avec Seaborn
  • Diagrammes bivariés avec Seaborn
  • Diagrammes multivariés avec Seaborn
  • Diagrammes matriciels avec Seaborn

Maîtriser Plotly : Laisse tes visualisations parler à travers Plotly

  • Modules importants de Plotly
  • Diagrammes de base avec Plotly
  • Plotly : diagrammes avancés

Machine Learning : Explorer ses nombreuses formes

  • Comment fonctionne le Machine Learning ?
  • Apprentissage automatique supervisé
  • Apprentissage Automatique non Supervisé
  • Apprentissage semi-supervisé
  • Apprentissage par renforcement
View Categories

Traitement des données catégorielles avec Pandas

Les données catégorielles sont présentes dans presque tous les ensembles de données, n’est-ce pas ? Mais elles doivent faire l’objet d’un traitement particulier pour être utilisées efficacement, de manière à ce qu’elles puissent être utilisées pour les modèles de Machine Learning.

Encodage de variables catégorielles #

L’encodage des variables catégorielles consiste à les convertir en un format numérique que les algorithmes dee Machine Learning peuvent comprendre. Les deux méthodes les plus courantes sont l’encodage one-hot et l’encodage de label :

  • Encodage one-hot à l’aide de pd.get_dummies : L’encodage one-hot crée des colonnes binaires (zéros et uns) pour chaque catégorie, indiquant la présence (uns) ou l’absence (zéros) d’une catégorie pour chaque point de données. Dans une colonne, s’il y a k valeurs uniques, il créera k nouvelles colonnes binaires, une pour chacune d’entre elles. Mais l’inconvénient c’est qu’il supprime la colonne d’origine !
import pandas as pd

# Exemple de DataFrame avec une colonne catégorielle
data = {'Category': ['A', 'B', 'A', 'C', 'B'],
         'Count':[1,2,3,4,5]}
df = pd.DataFrame(data)

# Effectuer un encodage one-hot
encoded_df = pd.get_dummies(df, columns=['Category'])
print(encoded_df)
--------------------------------------------------------------------
output: Observe that original Category column got Removed!

    Count  Category_A  Category_B  Category_C
0      1           1           0           0
1      2           0           1           0
2      3           1           0           0
3      4           0           0           1
4      5           0           1           0
  • Encodage de label : Supposons qu’il y ait 100 valeurs uniques dans une colonne catégorielle. Dans ce cas, si nous utilisons l’encodage one-hot, nous créerons 100 nouvelles colonnes ! Si nous ne voulons pas remplir les données de cette manière, nous avons une autre approche qui consiste à attribuer une valeur numérique unique à chaque catégorie. La méthode .astype('category').cat.codes est utilisée pour convertir les colonnes de catégories en encodage de label.
import pandas as pd

# Exemple de DataFrame avec une colonne catégorielle
data = {'Category': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)

# Effectuer l'encodage de label
df['Category_Encoded'] = df['Category'].astype('category').cat.codes
print(df)
-----------------------------------------------------------------
output:

  Category  Category_Encoded
0        A                 0
1        B                 1
2        A                 0
3        C                 2
4        B                 1

Tri de données ordinales #

Le tri des données ordinales consiste à organiser les points de données en fonction de leurs valeurs ordinales ou de leurs catégories dans un ordre spécifique. Les données ordinales représentent des catégories ayant un ordre naturel ou un classement, comme faible, moyen, élevé ou petit, moyen ou grand.

Nous pouvons réaliser ce tri en convertissant la colonne Ordinal en une colonne catégorielle Pandas à l’aide de pd.Categorical(), et en spécifiant les paramètres categories=ordinal_order et ordered=True. Cela indique à Pandas que la colonne “Size” doit être traitée comme des données ordinales avec l’ordre spécifié.

Supposons que tu aies un DataFrame avec une colonne ordinale appelée “Size”, et que tu souhaites le trier dans un ordre significatif : L’utilisation de sort_values sur ces colonnes les triera par ordre alphabétique, ce qui n’est pas ce que nous attendons !

import pandas as pd

# Exemple de DataFrame avec une colonne ordinale
data = {'Product': ['Product A', 'Product B', 'Product C', 'Product D'],
        'Size': ['Medium', 'Small', 'Large', 'Medium']}
df = pd.DataFrame(data)

# Définir l'ordre ordinal personnalisé
ordinal_order = ['Small', 'Medium', 'Large']

# Avant le tri
print('Tri normal :')
print(df.sort_values(by='Size'))

# Trier le DataFrame sur la base de la colonne 'Size'
df['Size'] = pd.Categorical(df['Size'], categories=ordinal_order, ordered=True)
print('Tri ordinal :')
print(df.sort_values(by='Size'))
----------------------------------------------------------------------
output:
Tri normal :
     Product    Size
2  Product C   Large
0  Product A  Medium
3  Product D  Medium
1  Product B   Small

Tri ordinal :
     Product    Size
1  Product B   Small
0  Product A  Medium
3  Product D  Medium
2  Product C   Large
Guide Pandas Bases
T'en as pensé quoi ?
Partager ce tuto :
  • Facebook
  • X
  • LinkedIn
Traitement des données de séries temporelles avec PandasPandas : Sujets avancés
Table des matières
  • Encodage de variables catégorielles
  • Tri de données ordinales

Apprentissage

  • Cours accéléré NumPy
  • Nos programmes Data
  • TOP 50 fonctions NumPy
  • MasterClass DS & ML
  • MasterClass Deep Learning
  • Mon Shot de Data Science
  • Tutoriels Data Science

Le site

  • Articles
  • Coaching
  • Communauté
  • Newsletter
  • Connexion

À propos

  • CGV
  • Contact
Payment Options
Reçois chaque semaine mes meilleures pratiques en Data Science :

© 2025 MonCoachData - Data Science & Machine Learning

YouTube Discord GitHub Linkedin RSS
Défiler vers le haut
  • Accueil
  • Blog
  • Tutos
  • Coaching
  • Programme Data
Connexion
Discord DiscordYouTube YouTube
Rechercher