Apprendre la Data Science : la méthode

De nos jours, tout le monde souhaite se former aux métiers de la Data Science, en passant par l’analyse exploratoire de données (EDA – Exploratory Data Analysis) jusqu’au Machine Learning et Deep Learning. De ce fait, on me pose assez régulièrement les questions suivantes :

– Qu’est-ce que je peux faire pour me former à la Data Science ?
– Comment est-ce que je peux commencer à analyser des données ?
– Par quoi commencer pour apprendre le Machine Learning et écrire ses propres algorithmes ?

C’est jamais facile d’y répondre au vu du nombre croissant de contenu que l’on trouve maintenant sur internet. Et ça dépend énormément de votre background (études et expériences).

Parmi les gens qui me posent ces questions, certains sont étudiants avec des notions en mathématiques, statistiques et/ou programmation, d’autres non mais souhaitent pivoter vers le domaine de la data, d’autres travaillent en marketing et souhaitent analyser des données, d’autres sont fondateurs de startups et ont un besoin rapide et croissant de développer leurs propres algorithmes et/ou faire des tests A/B pertinents. Ce qui corrobore les faits que tout le monde aujourd’hui est d’une manière ou d’une autre intéressé par la Data.

Qui pourrait les critiquer? Trouver et prédire les futures tendances a presque un aspect magique. Sans parler du Machine Learning – Deep Learning ou de l’Intelligence Artificielle qui vont changer notre société dans un futur proche.

Mes premières réponses

J’ai essayé tant bien que mal d’y répondre durant des mois…En fonction du background et des intérêts de chacun, j’orientais vers des formations Khan Academy (pour l’algèbre linéaire), lire tel livre ou tel livre puis se poser telle question et y répondre avec de la data. On s’y perd un peu et au final on s’éloigne de son objectif initial.

Puis, j’ai pensé que se jeter à corps perdus dans une compétition Kaggle pouvait marcher. Mais ça présente très vite ses limites comme installer et utiliser Python ou les librairies de Machine Learning (même si Anaconda est notre sauveur). Il faut se rendre à l’évidence pour commencer une compétition Kaggle (c’est une idée de formation d’ailleurs), une bonne compréhension en programmation, des bases en statistique et algèbre linéaire ainsi qu’être capable de manipuler de la data brute sont nécessaires.

J’orientais donc à présent vers des MOOCs Edx ou Coursera, ça donne un bon départ en terme de structure et syntaxe de programmation. Mais c’est bien trop souvent axé théorie. Résultat: cela ne donne pas les clés pour résoudre nos objectifs ou projets.

Quels sont les obstacles pour apprendre la Data Science ?

Au fur et à mesure, j’ai compris quelles étaient les barrières d’entrée :

Pris par une vague... — Pris par une vague…

Un domaine très vaste…

La Data Science devient à la mode pour un nombre grandissant de personnes. De nombreuses personnes n’y connaissant rien à la programmation souhaitent apprendre la Data Science. L’obstacle ici est donc la nécessité d’une bonne connaissance en programmation et souvent en parallèle en mathématiques et algèbre linéaire.

La Data Science est un domaine extrêmement vaste qui va du traitement du langage naturel (Natural Processing Langage), au Machine learning, en passant par l’analyse de données et encore bien d’autres choses… Beaucoup de ces sujets sont interdépendants – par exemple – pour apprendre le Machine Learning (suffisamment pour comprendre comment ajuster correctement les paramètres et comprendre ce qui se passe), vous devez apprendre les statistiques, l’algèbre linéaire, la programmation et le Machine Learning. Pourtant tous ces sujets sont souvent présentés de façon indépendante et/ou leurs liens ne sont pas suffisamment explicites. Résultat : en souhaitant apprendre le Machine Learning, on est vite découragé en étant confronté à une dizaine de cours différents. De plus on est vite confus lorsqu’ils sautent les 3 premières étapes (statistiques, algèbre linéaire et programmation) pour proposer l’application d’algorithmes.

…très technique…

La plupart des personnes souhaitant en savoir davantage sur la Data Science ne veulent pas forcément devenir des spécialistes. Ils souhaitent pour certains analyser un texte ou simplement appliquer des outils de Data Science pour un projet. Pour ces gens (qui représentent la majorité des personnes souhaitant « apprendre » la Data Science), il n’existe pas de ressources sur internet. Il est donc difficile de les orienter vers une formation complète nécessitant plusieurs heures d’apprentissage par semaine.

Les termes techniques : 75% du travail dans l’apprentissage du Machine Learning ou des statistiques réside dans la densité du vocabulaire. Quand vous lisez et obtenez un nouveau concept, vous trouvez ça généralement simple et élégant. Mais les termes utilisés dans ces domaines sont tout aussi importants, par exemple pour communiquer avec d’autres data scientists. Mais ils ne sont pas indispensables au début, ce qui en décourage beaucoup.

Des formations peu adaptées…

De nombreux efforts ont été faits par les structures de MOOCs sur l’application pratique plutôt que la théorie (comme Openclassroom). Mais nous sommes toujours dans le cadre d’un cours qui fonctionne sur un calendrier peu adapté à l’exploration personnel (très important pour apprendre un nouveau domaine). Ce qui est un des plus gros obstacles à l’apprentissage, notamment lorsqu’on doit adapter sa vie afin de respecter ces horaires fixes.

Pour finir les coûts de ces formations sont généralement importants, sans parler des Masters spécialisés offerts par les grandes écoles ou universités à plusieurs dizaines de milliers d’euros. Même les nouveaux bootcamps ou les MOOCs sont loin d’être donnés.

Pourquoi MonCoachData ?

J’ai donc pensé à créer une méthode qui permettrait d’apprendre plus efficacement la Data Science en ligne sur un format vidéos. Cette méthode tend à résoudre de nombreux problèmes soulignés ci-dessus :

Chaque section est centrée sur un dataset issu du monde réel de sorte que vous analysez toujours directement des données.
Chaque session au sein d’une section est architecturée de la façon suivante : point théorique – exemple concret pour comprendre – exercice pratique sur dataset – solution, qui est pour moi la meilleure méthode de compréhension.
A chaque session, vous serez invité à pratiquer. Jouer le jeu à cette étape est le meilleur investissement que vous pourrez faire.
A chaque nouveau concept, on ré-utilise ce qui a été précédemment appris, cette répétition tend à rendre peu à peu naturel dans votre esprit ces connaissances acquises très vite.
Pas de pression, à son rythme, on commence par les bases pour monter progressivement en compétence et en difficulté, on couvre ainsi le sujet de A à Z.
Accompagnement dans la construction d’un portfolio – car finalement c’est ce portfolio qui montre ce que vous savez faire ou non.
Section Questions / Réponses active.

Plus de 70.000 personnes ont déjà suivi ces cours, pourquoi pas vous ?

Les formations Data Science de MonCoachData :