Le Manuel de Data Science et de Machine Learning
Le domaine du Machine Learning se développe rapidement et a le potentiel de changer complètement la façon dont nous abordons la résolution de problèmes dans une variété d’industries.
Cependant, étant donné la quantité de matériel accessible sur le sujet, il peut être difficile de savoir par où commencer ou comment s’y prendre pour devenir compétent dans ce domaine.
Afin d’aborder tous ces sujets, de l’Analyse Exploratoire des Données (AED), en passant par le Feature Engineering et la modélisation statistique jusqu’aux méthodes de Machine Learning, je t’ai concocté ce manuel complet.
Il te sera d’une grande aide pour avoir une trame à suivre ou des idées à développer lorsque tu aborderas les projets du mois !
Dans ce manuel, je te donnerai un bref aperçu de chaque sujet abordé ici et je te donnerai des clés pour approfondir (si tu le souhaites). Commençons donc notre voyage pour devenir un jour expert en Machine Learning !
Analyse Exploratoire de Données
L’Analyse Exploratoire de Données est une étape essentielle de tout projet d’analyse de données, mais également pour tout projet de Machine Learning. Elle implique des techniques de synthèse et de visualisation des données, d’identification des valeurs aberrantes et manquantes, et de détection des schémas et des tendances. L’AED aide les data scientists à mieux comprendre leurs données, à identifier les problèmes potentiels et à prendre des décisions plus éclairées sur les variables à inclure dans leurs modèles de Machine Learning.
Si tu veux en savoir plus dès maintenant, je t’invite à consulter cette première partie sur l’Analyse Exploratoire de Données et l’ensemble des techniques qui constituent ce domaine.
Feature Engineering
Le processus de sélection, d’extraction et de transformation des features des données brutes afin d’améliorer les performances des modèles de Machine Learning est connu sous le nom de Feature Engineering (litérallement ingénierie des caractéristiques).
L’identification des variables pertinentes, la transformation des variables pour améliorer justement leur pertinence et la création de nouvelles variables à partir des variables existantes font partie de ce processus. La qualité des variables utilisées peut avoir un impact significatif sur la précision des modèles résultants, c’est pourquoi le Feature Engineering est une étape très importante du Machine Learning.
Sans plus attendre, voici la partie 2 sur l’ensemble des techniques de Feature Engineering.
Modélisation statistique
La modélisation statistique est le processus de création de modèles mathématiques permettant d’analyser et de prédire des données. La régression linéaire, la régression logistique et les modèles de séries temporelles en sont des exemples. Les modèles statistiques peuvent être utilisés pour mieux comprendre les relations entre les variables, prédire les résultats futurs et identifier les domaines à améliorer.
Je t’invite à étudier la partie 3 sur le minimum requis sur les statistiques.
Algorithmes de Machine Learning
Les algorithmes de Machine Learning sont un ensemble de modèles et de techniques statistiques qui permettent aux ordinateurs d’apprendre et de s’améliorer dans des tâches qui ne sont pas clairement programmées. La reconnaissance des images et de la parole, le traitement du langage naturel et les systèmes de recommandation sont autant d’exemples d’utilisation de ces algorithmes.
Les algorithmes de Machine Learning sont classés en trois types :
- Apprentissage supervisé
- Apprentissage non supervisé
- Apprentissage par renforcement
Pour finir ce manuel en beauté, voici un aperçu des principaux algorithmes de Machine Learning et comment les utiliser. Cela te donnera ainsi toutes les cartes pour démarrer le défi 30 jours de Machine Learning.
En comprenant chacun de ces éléments fondamentaux du Machine Learning les data scientists peuvent développer des modèles plus précis, prendre de meilleures décisions et tirer de nouvelles informations de leurs données.