Dans cet article, je vais passer en revue la majorité des principaux modèles de Machine Learning qu’on utilise en pratique. Plongeons dans le vif du sujet avec des explications très intuitives sur les modèles les plus populaires de Machine Learning.

Tous les modèles de Machine Learning sont classés en deux catégories : supervisé ou non supervisé. Si le modèle est un modèle supervisé, il peut-être de 2 types ou sous-catégories : modèle de régression ou de classification.

Lire la suite »

En tant que Data Scientist, je consacre environ le tiers de mon temps à analyser les données et à tenter d’obtenir des informations utiles. Voici les outils que j’utilise le plus pour mener à bien une Analyse Exploratoire de données.

Êtes-vous nouveau dans le monde fascinant de la Data Science? Est-ce que des mots comme Analyse Exploratoire vous font peur? Si oui, ne vous inquiétez pas, je suis ici pour vous aider à naviguer dans ce domaine un peu fou.

Lire la suite »

Dans ce deuxième épisode Ninja Python, je vous présente une introduction intuitive aux concepts de Classes, d’Objets, d’Héritage de classes et de Programmation Orienté Objet en Python.

Programmation Orienté Objet en Python

La Programmation Orienté Object ou POO est un modèle de langage de programmation dans lequel les programmes sont organisés en objets plutôt qu’en fonctions et en logique. Les classes et les objets sont des concepts de base de la Programmation Orientée Objet et nous allons les explorer en détail dans cet article.

Lire la suite »

Exploration de données

Dans cet article, nous allons effectuer une exploration de données statistiques. Nous utiliserons la bibliothèque Pandas pour l’analyse de données et la bibliothèque Seaborn pour la visualisation de données. Seaborn est un formidable outil de visualisation d’un point de vue esthétique.

Seaborn utilise la bibliothèque Matplotlib. Sauf que Seaborn configure les graphiques avec des valeurs de style par défaut qui les rendent beaucoup plus beaux visuellement.

Lire la suite »

Pourquoi le choix des structures de données est «extrêmement» important?

Les structures de données sont des moyens spécifiques d’organiser et de stocker des données afin qu’elles puissent être consultées et travaillées de manière efficace. Les structures de données définissent la relation entre les données et les opérations pouvant être effectuées dessus.

Le choix d’une structure de données dépend du problème que nous résolvons et du type de données dont nous disposons.

Lire la suite »

L’algorithme des k plus proches voisins ou k-nearest neighbors (kNN) est un algorithme d’apprentissage automatique (Machine Learning) supervisé simple et facile à mettre en œuvre qui peut être utilisé pour résoudre les problèmes de classification et de régression.

Euh…wait a minute ?!? ***Pause***

Décomposons tous ces termes un par un
Machine Learning supervisé

Un algorithme de Machine Learning supervisé (par opposition à un algorithme de Machine Learning non supervisé) est un algorithme qui repose sur des données d’entrée étiquetées .

Lire la suite »

Le Data Cleaning (nettoyage de données) est l’étape la plus importante avant d’analyser ou modéliser des données mais elle peut-être très fastidieuse.

Plaçons-nous dans le contexte, c’est le début d’un nouveau projet et vous êtes impatient d’appliquer certains modèles de Machine Learning. Vous examinez les données et vous réalisez rapidement que c’est la cata: les données ne sont absolument pas exploitables en l’état.
Pour être tout à fait honnête, vous pouvez régulièrement vous attendre à consacrer jusqu’à 80% de votre temps à nettoyer les données.

Lire la suite »

Dans un précédent tutoriel, nous avons abordé les bases des boucles Python, en expliquant comment parcourir des listes et des listes de listes (ou listes imbriquées). Mais on peut faire bien plus avec des boucles for que parcourir des listes. Dans le monde réel, vous pouvez utiliser des boucles avec d’autres structures de données, par exemple des tableaux NumPy ou même des DataFrames pandas. Je vous présente dans cet article les boucles FOR Python techniques avancées.

Lire la suite »

Les fonctions de Python (que ce soit les fonctions intégrées built-in ou les fonctions personnalisées que nous écrivons nous-mêmes) sont des outils essentiels pour travailler avec des données. Mais ce qu’ils font avec nos données peut être un peu déroutant surtout si on ignore ce qu’il se passe à l’intérieur. Cela pourrait entraîner de graves erreurs dans notre analyse notamment avec la distinction de données mutables et immuables Python.

Dans cet article,

Lire la suite »

Lorsque vous travaillez avec des données, les boucles for Python peuvent être un outil puissant. Mais elles peuvent aussi être un peu déroutantes lorsque vous débutez. C’est la raison pour laquelle je vous propose un tutoriel complet sur les boucles FOR Python.
Dans cet article, nous allons nous plonger dans les boucles for et apprendre comment elles peuvent être utilisées pour faire toutes sortes de choses intéressantes notamment lorsque vous effectuez un nettoyage ou une analyse de données en Python.

Lire la suite »