Si tu as tes données dans un tableau numérique NumPy et que tu veux observer les valeurs manquantes et les supprimer rapidement, dans ce cas, tu n’as pas besoin de convertir le tableau en série pandas pour le traiter ! Nous pouvons le faire au sein même de NumPy. Voici comment procéder.
Identifier les valeurs manquantes #
NumPy fournit des fonctions pour vérifier les valeurs manquantes dans un tableau numérique, représentées par NaN (Not a Number).
# Créer un tableau NumPy avec des valeurs manquantes data = np.array([1, 2, np.nan, 4, np.nan, 6]) # Vérifier les valeurs manquantes has_missing = np.isnan(data) print(has_missing)
Suppression des lignes ou des colonnes avec des valeurs manquantes #
Nous pouvons utiliser np.isnan
pour obtenir une matrice booléenne avec True
pour les indices où il y a une valeur manquante. Et lorsque nous le passons à np.any
, il renvoie un tableau 1D avec True
pour l’index où n’importe quel élément de la ligne est True
. Et enfin, nous passons le booléen à la matrice d’origine, qui supprimera les lignes avec des valeurs manquantes.
# Créer un tableau 2D avec des valeurs manquantes data = np.array([[1, 2, 3], [4, np.nan, 6], [7, 8, 9]]) # Supprimer les lignes contenant des valeurs manquantes cleaned_data = data[~np.any(np.isnan(data), axis=1)] print(cleaned_data) # Résultat : [[1,2,3],[7,8,9]]