La visualisation de données est une étape clé pour comprendre l’ensemble des données et en tirer des conclusions. Bien qu’il soit toujours possible d’inspecter de près les données ligne par ligne, cellule par cellule, c’est souvent une tâche fastidieuse qui ne met pas en évidence la vue d’ensemble. Les visuels, en revanche, définissent les données sous une forme facile à comprendre d’un simple coup d’œil et permettent de garder l’attention du public.

Matplotlib est une bibliothèque de traçage 2D avec Python 2D qui produit des tracés de qualité dans une variété de formats et d’environnements interactifs sur toutes les plateformes.

Lire la suite »

Dans ce tutoriel, nous allons construire un scraper Amazon pour scraper les produits Amazon et obtenir les détails et les prix de ces produits. Nous allons construire ce simple Web Scraper en utilisant Python et SelectorLib et l’exécuter dans une console. Mais avant de commencer, voyons à quoi il peut vous servir.

Comment utiliser les données des produits Amazon?

  1. Scrapez les détails des produits que vous ne pouvez pas obtenir avec l’API de publicité des produits
    Amazon fournit une API pour la publicité des produits,

Lire la suite »

Le modèle ARIMA avec Python donne la possibilité de faire des prévisions basées sur des observations historiques, ce qui crée un avantage concurrentiel. Par exemple, si une organisation a la capacité de mieux prévoir les quantités vendues d’un produit, elle sera dans une position plus favorable pour optimiser les niveaux de stock. Cela peut se traduire par une augmentation des liquidités des réserves de trésorerie de l’organisation, une diminution du fonds de roulement et une amélioration de la satisfaction des clients en réduisant l’arriéré des commandes.

Lire la suite »

Dans cet article, je vais passer en revue la majorité des principaux modèles de Machine Learning qu’on utilise en pratique. Plongeons dans le vif du sujet avec des explications très intuitives sur les modèles les plus populaires de Machine Learning.

Tous les modèles de Machine Learning sont classés en deux catégories : supervisé ou non supervisé. Si le modèle est un modèle supervisé, il peut-être de 2 types ou sous-catégories : modèle de régression ou de classification.

Lire la suite »

En tant que Data Scientist, je consacre environ le tiers de mon temps à analyser les données et à tenter d’obtenir des informations utiles. Voici les outils que j’utilise le plus pour mener à bien une Analyse Exploratoire de données.

Êtes-vous nouveau dans le monde fascinant de la Data Science? Est-ce que des mots comme Analyse Exploratoire vous font peur? Si oui, ne vous inquiétez pas, je suis ici pour vous aider à naviguer dans ce domaine un peu fou.

Lire la suite »

Dans ce deuxième épisode Ninja Python, je vous présente une introduction intuitive aux concepts de Classes, d’Objets, d’Héritage de classes et de Programmation Orienté Objet en Python.

Programmation Orienté Objet en Python

La Programmation Orienté Object ou POO est un modèle de langage de programmation dans lequel les programmes sont organisés en objets plutôt qu’en fonctions et en logique. Les classes et les objets sont des concepts de base de la Programmation Orientée Objet et nous allons les explorer en détail dans cet article.

Lire la suite »

Exploration de données

Dans cet article, nous allons effectuer une exploration de données statistiques. Nous utiliserons la bibliothèque Pandas pour l’analyse de données et la bibliothèque Seaborn pour la visualisation de données. Seaborn est un formidable outil de visualisation d’un point de vue esthétique.

Seaborn utilise la bibliothèque Matplotlib. Sauf que Seaborn configure les graphiques avec des valeurs de style par défaut qui les rendent beaucoup plus beaux visuellement.

Lire la suite »

Pourquoi le choix des structures de données est «extrêmement» important?

Les structures de données sont des moyens spécifiques d’organiser et de stocker des données afin qu’elles puissent être consultées et travaillées de manière efficace. Les structures de données définissent la relation entre les données et les opérations pouvant être effectuées dessus.

Le choix d’une structure de données dépend du problème que nous résolvons et du type de données dont nous disposons.

Lire la suite »

L’algorithme des k plus proches voisins ou k-nearest neighbors (kNN) est un algorithme d’apprentissage automatique (Machine Learning) supervisé simple et facile à mettre en œuvre qui peut être utilisé pour résoudre les problèmes de classification et de régression.

Euh…wait a minute ?!? ***Pause***

Décomposons tous ces termes un par un

Machine Learning supervisé

Un algorithme de Machine Learning supervisé (par opposition à un algorithme de Machine Learning non supervisé) est un algorithme qui repose sur des données d’entrée étiquetées .

Lire la suite »

Le Data Cleaning (nettoyage de données) est l’étape la plus importante avant d’analyser ou modéliser des données mais elle peut-être très fastidieuse.

Plaçons-nous dans le contexte, c’est le début d’un nouveau projet et vous êtes impatient d’appliquer certains modèles de Machine Learning. Vous examinez les données et vous réalisez rapidement que c’est la cata: les données ne sont absolument pas exploitables en l’état.
Pour être tout à fait honnête, vous pouvez régulièrement vous attendre à consacrer jusqu’à 80% de votre temps à nettoyer les données.

Lire la suite »