Transformation des données #
NumPy ne dispose pas directement des fonctionnalités de transformation de données, mais nous pouvons utiliser les fonctionnalités existantes pour les réaliser.
- Centrage des données : Le centrage des données consiste à soustraire la moyenne de chaque point de données. Cette opération est souvent effectuée pour supprimer l’effet d’un terme constant ou pour faciliter la convergence du modèle.
- Normalisation : Il s’agit de transformer des données numériques de manière à ce qu’elles aient une moyenne de 0 et un écart-type de 1. Ce processus facilite la comparaison et l’analyse de données à différentes échelles.
- Transformation logarithmique : La transformation logarithmique est utilisée pour rendre les données plus symétriques ou pour stabiliser la variance en cas de croissance exponentielle.
# Centrage des données data = np.array([10, 20, 30, 40, 50]) mean = np.mean(data) centered_data = data - mean # Standardisation std_dev = np.std(data) standardized_data = (data - mean) / std_dev # Transformation logarithmique log_transformed_data = np.log(data)
L’échantillonnage aléatoire #
L’échantillonnage aléatoire consiste à sélectionner un sous-ensemble de points de données à partir d’un ensemble de données plus large. NumPy fournit également des outils pour générer des nombres aléatoires à partir de diverses distributions de probabilités.
Échantillonnage :
- Échantillonnage aléatoire simple : Sélectionner un échantillon aléatoire d’une taille spécifiée à partir d’un ensemble de données. Lors d’un échantillonnage sans remplacement, chaque élément sélectionné n’est pas réintégré à la population.
- Échantillonnage bootstrap : L’échantillonnage bootstrap implique un échantillonnage avec remplacement pour créer plusieurs ensembles de données. Cette méthode est souvent utilisée pour estimer la variabilité des statistiques.
# Échantillonnage aléatoire simple sans remplacement data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) random_samples = np.random.choice(data, size=5, replace=False) # Échantillonnage Bootstrap num_samples = 1000 bootstrap_samples = np.random.choice(data, size=(num_samples, len(data)), replace=True)
Générer des nombres aléatoires : Voici quelques façons de générer des nombres aléatoires avec la distribution souhaitée.
- Entiers : Générer un nombre entier aléatoire entre une plage spécifiée en utilisant
np.random.randint()
- Distribution uniforme : Générer des valeurs aléatoires à partir d’une distribution uniforme en utilisant
np.random.uniform()
- Distribution normale : Échantillonner des valeurs aléatoires à partir d’une distribution normale en utilisant
np.random.normal()
- Distribution binomiale : Simuler des expériences binomiales avec
np.random.binomial()
- Distribution de Poisson : Modéliser des événements rares avec la distribution de Poisson en utilisant
np.random.poisson()