La bibliothèque NumPy est une bibliothèque Python importante pour les Data Scientists, une bonne raison de s’y familiariser. Les tableaux Numpy sont comme des listes Python, mais en beaucoup mieux! En effet, il est beaucoup plus facile de manipuler un tableau Numpy que de manipuler une liste Python. Vous pouvez utiliser un tableau Numpy au lieu d’avoir plusieurs listes Python. Les tableaux Numpy calculent également plus rapidement que les listes et sont extrêmement efficaces pour effectuer des opérations mathématiques et logiques.

Lire la suite »

Mes trucs et astuces en Python qui est l’un des langages de programmation les plus populaires et les plus demandés au monde. Ceci pour plusieurs raisons:

  • C’est facile à apprendre
  • C’est super polyvalent
  • Il a une vaste gamme de modules et de bibliothèques

J’utilise quotidiennement Python dans le cadre de mon travail en tant que data scientist. De mon utilisation, j’ai relevé quelques trucs et astuces en Python que je vous dévoile et partage.

Lire la suite »

Python est le langage de prédilection des spécialistes des données – et ce que pour de bonnes raisons. Il fournit à la fois l’écosystème le plus vaste pour un langage de programmation et la profondeur d’excellentes bibliothèques de calcul scientifique. Si vous ne connaissez pas encore le langage Python, regardez mon cours Python ici (ou même pour aller plus loin le cours de manipulation de données avec Pandas).

Parmi ses bibliothèques de calcul scientifique,

Lire la suite »

Les expressions régulières (regex ou regexp) sont extrêmement utiles pour extraire des informations d’un texte en recherchant une ou plusieurs correspondances à l’aide d’un modèle de recherche spécifique (c’est-à-dire une séquence spécifique de caractères ASCII ou Unicode). Voici un rapide tuto regex pour avoir une vision d’ensemble de ce domaine.

Les domaines d’application vont de la validation à l’analyse/remplacement de chaînes de caractères, en passant par la transposition de données vers d’autres formats mais aussi 

Lire la suite »

Les entreprises de Data Science se tournent de plus en plus vers les portfolios pour leurs processus d’embauche. Une des raisons à cela est qu’un portfolio avec des projets de Data Science est le meilleur moyen de juger des compétences réelles d’une personne. La bonne nouvelle pour vous, c’est qu’un portfolio dépend uniquement de vous. Si vous travaillez suffisamment, vous pourrez constituer un excellent portfolio avec des projets hétérogènes et passionnants qui impressionnera nombre d’entreprises.

Lire la suite »

Le Web Scraping est une technique permettant d’extraire automatiquement de grandes quantités d’informations d’un site Web, ce qui permet d’économiser énormément de temps et d’efforts. Dans cet article, nous allons passer en revue un exemple simple d’automatisation du téléchargement de centaines de fichiers à partir du MTA de New York (transports New Yorkais). Il s’agit d’un excellent exercice pour les débutants sur le Web qui cherchent à comprendre comment scraper le Web. De premier abord le Web Scraping peut sembler légèrement intimidant,

Lire la suite »

Tips Python

Pour que même les détails sur Python, Numpy et Pandas n’aient plus de secret pour vous (Python et Data Science).

Le problème

Si vous vous êtes déjà retrouvé à vous poser plusieurs fois la même question ou même rechercher des réponses toujours sur le même concept ou syntaxe lorsque vous programmez en Python, vous n’êtes pas seul.
Dans cet article, j’ai envie de lister les détails importants qu’on a tendance à oublier lorsqu’on arrête de coder quelques semaines.

Lire la suite »

Itinéraires avions

Dans cet article, nous verrons comment utiliser sqlite3 pour créer, interroger et mettre à jour des bases de données SQLite Python. Nous verrons également comment simplifier le travail avec les bases de données SQLite en utilisant la librairie Pandas. J’utiliserai Python 3.7, mais cette même approche devrait fonctionner avec Python 2.

SQLite est un système de base de données qui simplifie le stockage et l’utilisation de données relationnelles.

Lire la suite »

datasets

Si vous avez déjà travaillé sur un projet perso de Data Science, vous avez probablement passé beaucoup de temps à naviguer sur Internet à la recherche de datasets intéressants à analyser.
Il peut être amusant de passer au crible des dizaines d’ensemble de données pour trouver celui qui est parfait, mais il peut aussi être frustrant de télécharger et d’importer plusieurs fichiers csv, pour se rendre compte que les données ne sont finalement pas si intéressantes.

Lire la suite »

Qu'est ce qu'un Data Engineer ?

De la voiture autonome à la reconnaissance faciale sur Facebook, la Data Science a attiré la lumière sur elle. Ainsi les Data Scientists sont devenus extrêmement recherchés, et ce pour une bonne raison – un Data Scientist qualifié peut ajouter une valeur incroyable à une entreprise.

Mais un data scientist n’est rien sans les données auxquelles il a accès. La plupart des entreprises stockent leurs données dans divers formats: dans des bases de données et dans des fichiers texte.

Lire la suite »