La curiosité et l’intuition sont deux des outils les plus puissants du Data Scientist. Le troisième est peut-être le Pandas…
Nous allons voir ici l’extraction d’informations avec Pandas et Seaborn, en utilisant un dataset Kaggle.

Dans un précédent article, je vous ai montré comment avoir une idée du degré d’exhaustivité d’un ensemble de données, tracer quelques variables et examiner les tendances et les évolutions dans le temps.

Lire la suite »

Extraction d’informations avec Pandas et Seaborn à partir d’un dataset Kaggle

Bienvenue dans la deuxième partie sur la prédiction du prix des taxis avec du Machine Learning ! C’est un défi unique, n’est-ce pas ? Nous faisons régulièrement des courses en taxi (parfois même tous les jours !), et pourtant, lorsque nous appuyons sur le bouton “Réserver maintenant”, nous nous fions à des calculs manuels à la volée plutôt qu’à des calculs de type ML. Et c’est ce que j’ai l’intention de démontrer ici : Prix des taxis –

Lire la suite »

Machine Learning : Prédiction du prix des taxis Modélisation prédictive (2ème partie)

Pour cet article, nous avons un ensemble de données d’entrainement de 55 millions de courses en taxi à New York depuis 2009 et 9914 enregistrements pour les données de test. L’objectif de ce défi est de prédire le prix d’une course en taxi en fonction des informations sur les lieux de prise en charge et de dépose, de la date et de l’heure de la prise en charge et du nombre de passagers voyageant.

Dans tout projet d’analyse,

Lire la suite »

Machine Learning : Prédiction du prix des taxis – Analyse exploratoire (1ère partie)

La visualisation de données est une étape clé pour comprendre l’ensemble des données et en tirer des conclusions. Bien qu’il soit toujours possible d’inspecter de près les données ligne par ligne, cellule par cellule, c’est souvent une tâche fastidieuse qui ne met pas en évidence la vue d’ensemble. Les visuels, en revanche, définissent les données sous une forme facile à comprendre d’un simple coup d’œil et permettent de garder l’attention du public.

Matplotlib est une bibliothèque de traçage 2D avec Python 2D qui produit des tracés de qualité dans une variété de formats et d’environnements interactifs sur toutes les plateformes.

Lire la suite »

Matplotlib – Visualisation de données

Dans ce tutoriel publié initialement par ScrapeHero, nous allons construire un scraper Amazon pour scraper les produits Amazon et obtenir les détails et les prix de ces produits. Nous allons construire ce simple Web Scraper en utilisant Python et SelectorLib et l’exécuter dans une console. Mais avant de commencer, voyons à quoi il peut vous servir.

Comment utiliser les données des produits Amazon?

  1. Scrapez les détails des produits que vous ne pouvez pas obtenir avec l’API de publicité des produits
    Amazon fournit une API pour la publicité des produits,

Lire la suite »

Comment scraper les produits Amazon avec Python ?

Le modèle ARIMA avec Python donne la possibilité de faire des prévisions basées sur des observations historiques, ce qui crée un avantage concurrentiel. Par exemple, si une organisation a la capacité de mieux prévoir les quantités vendues d’un produit, elle sera dans une position plus favorable pour optimiser les niveaux de stock. Cela peut se traduire par une augmentation des liquidités des réserves de trésorerie de l’organisation, une diminution du fonds de roulement et une amélioration de la satisfaction des clients en réduisant l’arriéré des commandes.

Lire la suite »

Modèle ARIMA avec Python – Prévisions de séries temporelles

Dans cet article, je vais passer en revue la majorité des principaux modèles de Machine Learning qu’on utilise en pratique. Plongeons dans le vif du sujet avec des explications très intuitives sur les modèles les plus populaires de Machine Learning.

Tous les modèles de Machine Learning sont classés en deux catégories : supervisé ou non supervisé. Si le modèle est un modèle supervisé, il peut-être de 2 types ou sous-catégories : modèle de régression ou de classification.

Lire la suite »

Tous les modèles de Machine Learning expliqués brièvement

En tant que Data Scientist, je consacre environ le tiers de mon temps à analyser les données et à tenter d’obtenir des informations utiles. Voici les outils que j’utilise le plus pour mener à bien une Analyse Exploratoire de données.

Êtes-vous nouveau dans le monde fascinant de la Data Science? Est-ce que des mots comme Analyse Exploratoire vous font peur? Si oui, ne vous inquiétez pas, je suis ici pour vous aider à naviguer dans ce domaine un peu fou.

Lire la suite »

Analyse Exploratoire de données avec Pandas

Dans ce deuxième épisode Ninja Python, je vous présente une introduction intuitive aux concepts de Classes, d’Objets, d’Héritage de classes et de Programmation Orienté Objet en Python.

Programmation Orienté Objet en Python

La Programmation Orienté Object ou POO est un modèle de langage de programmation dans lequel les programmes sont organisés en objets plutôt qu’en fonctions et en logique. Les classes et les objets sont des concepts de base de la Programmation Orientée Objet et nous allons les explorer en détail dans cet article.

Lire la suite »

Programmation Orientée Objet en Python

Dans cet article, nous allons effectuer une exploration de données statistiques. Nous utiliserons la bibliothèque Pandas pour l’analyse de données et la bibliothèque Seaborn pour la visualisation de données. Seaborn est un formidable outil de visualisation d’un point de vue esthétique.

Seaborn utilise la bibliothèque Matplotlib. Sauf que Seaborn configure les graphiques avec des valeurs de style par défaut qui les rendent beaucoup plus beaux visuellement.

Lire la suite »

Exploration de données statistiques avec les librairies Pandas et Seaborn