Traitement des données catégorielles avec Pandas

Temps de lecture: 3 minutes

Les données catégorielles sont présentes dans presque tous les ensembles de données, n’est-ce pas ? Mais elles doivent faire l’objet d’un traitement particulier pour être utilisées efficacement, de manière à ce qu’elles puissent être utilisées pour les modèles de Machine Learning.

Encodage de variables catégorielles #

L’encodage des variables catégorielles consiste à les convertir en un format numérique que les algorithmes dee Machine Learning peuvent comprendre. Les deux méthodes les plus courantes sont l’encodage one-hot et l’encodage de label :

Encodage one-hot à l’aide de pd.get_dummies : L’encodage one-hot crée des colonnes binaires (zéros et uns) pour chaque catégorie, indiquant la présence (uns) ou l’absence (zéros) d’une catégorie pour chaque point de données. Dans une colonne, s’il y a k valeurs uniques, il créera k nouvelles colonnes binaires, une pour chacune d’entre elles. Mais l’inconvénient c’est qu’il supprime la colonne d’origine !

import pandas as pd

# Exemple de DataFrame avec une colonne catégorielle
data = {'Category': ['A', 'B', 'A', 'C', 'B'],
         'Count':[1,2,3,4,5]}
df = pd.DataFrame(data)

# Effectuer un encodage one-hot
encoded_df = pd.get_dummies(df, columns=['Category'])
print(encoded_df)
--------------------------------------------------------------------
output: Observe that original Category column got Removed!

    Count  Category_A  Category_B  Category_C
0      1           1           0           0
1      2           0           1           0
2      3           1           0           0
3      4           0           0           1
4      5           0           1           0

Encodage de label : Supposons qu’il y ait 100 valeurs uniques dans une colonne catégorielle. Dans ce cas, si nous utilisons l’encodage one-hot, nous créerons 100 nouvelles colonnes ! Si nous ne voulons pas remplir les données de cette manière, nous avons une autre approche qui consiste à attribuer une valeur numérique unique à chaque catégorie. La méthode .astype('category').cat.codes est utilisée pour convertir les colonnes de catégories en encodage de label.

import pandas as pd

# Exemple de DataFrame avec une colonne catégorielle
data = {'Category': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)

# Effectuer l'encodage de label
df['Category_Encoded'] = df['Category'].astype('category').cat.codes
print(df)
-----------------------------------------------------------------
output:

  Category  Category_Encoded
0        A                 0
1        B                 1
2        A                 0
3        C                 2
4        B                 1

Tri de données ordinales #

Le tri des données ordinales consiste à organiser les points de données en fonction de leurs valeurs ordinales ou de leurs catégories dans un ordre spécifique. Les données ordinales représentent des catégories ayant un ordre naturel ou un classement, comme faible, moyen, élevé ou petit, moyen ou grand.

Nous pouvons réaliser ce tri en convertissant la colonne Ordinal en une colonne catégorielle Pandas à l’aide de pd.Categorical(), et en spécifiant les paramètres categories=ordinal_order et ordered=True. Cela indique à Pandas que la colonne “Size” doit être traitée comme des données ordinales avec l’ordre spécifié.

Supposons que tu aies un DataFrame avec une colonne ordinale appelée “Size”, et que tu souhaites le trier dans un ordre significatif : L’utilisation de sort_values sur ces colonnes les triera par ordre alphabétique, ce qui n’est pas ce que nous attendons !

import pandas as pd

# Exemple de DataFrame avec une colonne ordinale
data = {'Product': ['Product A', 'Product B', 'Product C', 'Product D'],
        'Size': ['Medium', 'Small', 'Large', 'Medium']}
df = pd.DataFrame(data)

# Définir l'ordre ordinal personnalisé
ordinal_order = ['Small', 'Medium', 'Large']

# Avant le tri
print('Tri normal :')
print(df.sort_values(by='Size'))

# Trier le DataFrame sur la base de la colonne 'Size'
df['Size'] = pd.Categorical(df['Size'], categories=ordinal_order, ordered=True)
print('Tri ordinal :')
print(df.sort_values(by='Size'))
----------------------------------------------------------------------
output:
Tri normal :
     Product    Size
2  Product C   Large
0  Product A  Medium
3  Product D  Medium
1  Product B   Small

Tri ordinal :
     Product    Size
1  Product B   Small
0  Product A  Medium
3  Product D  Medium
2  Product C   Large

T'en as pensé quoi ?

Happy
Normal
Sad

Maîtriser NumPy : Le compagnon indispensable pour les Data Lovers

Pandas : Un manuel complet pour les Data Lovers

Maîtriser Matplotlib : Un guide complet pour la visualisation de données

Maîtriser Seaborn : Démystifier les diagrammes complexes

Maîtriser Plotly : Laisse tes visualisations parler à travers Plotly

Machine Learning : Explorer ses nombreuses formes

Traitement des données catégorielles avec Pandas

Encodage de variables catégorielles #

Tri de données ordinales #

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :

Encodage de variables catégorielles #

Tri de données ordinales #

Partager ce tuto :

Apprentissage

Le site

À propos

Reçois chaque semaine mes meilleures pratiques en Data Science :