Les entreprises de Data Science se tournent de plus en plus vers les portfolios pour leurs processus d’embauche. Une des raisons à cela est qu’un portfolio est le meilleur moyen de juger des compétences réelles d’une personne. La bonne nouvelle pour vous, c’est qu’un portfolio dépend uniquement de vous. Si vous travaillez suffisamment, vous pourrez constituer un excellent portfolio avec des projets hétérogènes et passionnants qui impressionnera nombre d’entreprises.

La première étape pour créer un portfolio de grande qualité consiste à savoir quelles compétences vous devez démontrer.

Lire la suite »

Le Web Scraping est une technique permettant d’extraire automatiquement de grandes quantités d’informations d’un site Web, ce qui permet d’économiser énormément de temps et d’efforts. Dans cet article, nous allons passer en revue un exemple simple d’automatisation du téléchargement de centaines de fichiers à partir du MTA de New York (transports New Yorkais). Il s’agit d’un excellent exercice pour les débutants sur le Web qui cherchent à comprendre comment scraper le Web. De premier abord le Web Scraping peut sembler légèrement intimidant,

Lire la suite »

Tips Python

Pour que même les détails sur Python, Numpy et Pandas n’aient plus de secret pour vous (Python et Data Science).

Le problème

Si vous vous êtes déjà retrouvé à vous poser plusieurs fois la même question ou même rechercher des réponses toujours sur le même concept ou syntaxe lorsque vous programmez en Python, vous n’êtes pas seul.
Dans cet article, j’ai envie de lister les détails importants qu’on a tendance à oublier lorsqu’on arrête de coder quelques semaines.

Lire la suite »

Itinéraires avions

Dans cet article, nous verrons comment utiliser sqlite3 pour créer, interroger et mettre à jour des bases de données SQLite avec Python. Nous verrons également comment simplifier le travail avec les bases de données SQLite en utilisant la librairie Pandas. J’utiliserai Python 3.7, mais cette même approche devrait fonctionner avec Python 2.

SQLite est un système de base de données qui simplifie le stockage et l’utilisation de données relationnelles.

Lire la suite »

datasets

Si vous avez déjà travaillé sur un projet perso de Data Science, vous avez probablement passé beaucoup de temps à naviguer sur Internet à la recherche de datasets intéressants à analyser.
Il peut être amusant de passer au crible des dizaines d’ensemble de données pour trouver celui qui est parfait, mais il peut aussi être frustrant de télécharger et d’importer plusieurs fichiers csv, pour se rendre compte que les données ne sont finalement pas si intéressantes.

Lire la suite »

Python 2 ou Python 3: quelle version apprendre?

Est-ce que je dois apprendre Python 2.x ou alors Python 3.x?

C’est la première question qui vient à l’esprit lorsqu’on souhaite apprendre Python.

Dans cet article, je vais vous donner le contexte qui se cache derrière cette question et bien sur je vous donnerai à la fin la version qu’il faut apprendre (un peu de suspens tout de même).

Commençons par un brin d’histoire.

Lire la suite »

Qu'est ce qu'un Data Engineer ?

De la voiture autonome à la reconnaissance faciale sur Facebook, la Data Science a attiré la lumière sur elle. Ainsi les Data Scientists sont devenus extrêmement recherchés, et ce pour une bonne raison – un Data Scientist qualifié peut ajouter une valeur incroyable à une entreprise.

Mais un data scientist n’est rien sans les données auxquelles il a accès. La plupart des entreprises stockent leurs données dans divers formats: dans des bases de données et dans des fichiers texte.

Lire la suite »

Visualisation de données en Python: comparaison d'outils

Python est un langage scientifique très mature. On y trouve des librairies pour tout un tas d’utilisation différentes: notamment le Machine Learning et l’analyse de data. La visualisation de données est une partie importante pour explorer nos données et pour communiquer les résultats. 

Au cours des dernières années, de nombreuses nouvelles librairies de visualisation de données ont vu le jour sur Python pour combler son retard avec le langage R.

Lire la suite »

Les 5 traits de caractère d'un Data Scientist

A la question: “Qu’est ce qui définit un excellent Data Scientist”? Les réponses sont souvent à base de liste de compétences et d’outils, mais on ne parle jamais des personnalités qui font de grands ou d’excellents Data Scientists. J’aimerai bien aborder ce sujet dans cet article.

N’importe qui peut maîtriser les outils et les compétences pour être un Data Scientist. Mais acquérir ces outils et les appliquer correctement nécessite un ensemble de traits de caractère difficiles à identifier et encore plus difficiles à maîtriser.

Lire la suite »

Python vs. R : le duel
Quel est le meilleur langage pour l’analyse de données?

Dans cet article, je vais comparer Python et R de façon objective. Pour ce faire, j’analyserai des données avec ces 2 langages pour obtenir les mêmes résultats. Cela nous permettra de comprendre les forces et faiblesses de chacun. Chez Mon Coach Data, j’enseigne pour le moment seulement Python (pour avoir un cursus complet). Mais je pense que Python et R ont tous les 2 leur place dans les compétences d’un data scientist.

Lire la suite »