Le Manuel de Data Science et de Machine Learning

Manuel Ds Ml

Le domaine du Machine Learning se développe rapidement et a le potentiel de changer complètement la façon dont nous abordons la résolution de problèmes dans une variété d’industries.

Cependant, étant donné la quantité de matériel accessible sur le sujet, il peut être difficile de savoir par où commencer ou comment s’y prendre pour devenir compétent dans ce domaine.

Afin d’aborder tous ces sujets, de l’Analyse Exploratoire des Données (AED), en passant par le Feature Engineering et la modélisation statistique jusqu’aux méthodes de Machine Learning, je t’ai concocté ce manuel complet.

Il te sera d’une grande aide pour avoir une trame à suivre ou des idées à développer lorsque tu aborderas les projets du mois !

Dans ce manuel, je te donnerai un bref aperçu de chaque sujet abordé ici et je te donnerai des clés pour approfondir (si tu le souhaites). Commençons donc notre voyage pour devenir un jour expert en Machine Learning !

Analyse Exploratoire de Données

L’Analyse Exploratoire de Données est une étape essentielle de tout projet d’analyse de données, mais également pour tout projet de Machine Learning. Elle implique des techniques de synthèse et de visualisation des données, d’identification des valeurs aberrantes et manquantes, et de détection des schémas et des tendances. L’AED aide les data scientists à mieux comprendre leurs données, à identifier les problèmes potentiels et à prendre des décisions plus éclairées sur les variables à inclure dans leurs modèles de Machine Learning.

Si tu veux en savoir plus dès maintenant, je t’invite à consulter cette première partie sur l’Analyse Exploratoire de Données et l’ensemble des techniques qui constituent ce domaine.

Feature Engineering

Le processus de sélection, d’extraction et de transformation des features des données brutes afin d’améliorer les performances des modèles de Machine Learning est connu sous le nom de Feature Engineering (litérallement ingénierie des caractéristiques).

L’identification des variables pertinentes, la transformation des variables pour améliorer justement leur pertinence et la création de nouvelles variables à partir des variables existantes font partie de ce processus. La qualité des variables utilisées peut avoir un impact significatif sur la précision des modèles résultants, c’est pourquoi le Feature Engineering est une étape très importante du Machine Learning.

Sans plus attendre, voici la partie 2 sur l’ensemble des techniques de Feature Engineering.

Modélisation statistique

La modélisation statistique est le processus de création de modèles mathématiques permettant d’analyser et de prédire des données. La régression linéaire, la régression logistique et les modèles de séries temporelles en sont des exemples. Les modèles statistiques peuvent être utilisés pour mieux comprendre les relations entre les variables, prédire les résultats futurs et identifier les domaines à améliorer.

Je t’invite à étudier la partie 3 sur le minimum requis sur les statistiques.

Algorithmes de Machine Learning

Les algorithmes de Machine Learning sont un ensemble de modèles et de techniques statistiques qui permettent aux ordinateurs d’apprendre et de s’améliorer dans des tâches qui ne sont pas clairement programmées. La reconnaissance des images et de la parole, le traitement du langage naturel et les systèmes de recommandation sont autant d’exemples d’utilisation de ces algorithmes.

Les algorithmes de Machine Learning sont classés en trois types :

  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Apprentissage par renforcement

Pour finir ce manuel en beauté, voici un aperçu des principaux algorithmes de Machine Learning et comment les utiliser. Cela te donnera ainsi toutes les cartes pour démarrer le défi 30 jours de Machine Learning.

En comprenant chacun de ces éléments fondamentaux du Machine Learning les data scientists peuvent développer des modèles plus précis, prendre de meilleures décisions et tirer de nouvelles informations de leurs données.

Contenu cours

Partie 1 : Analyse Exploratoire de Données
Techniques d’Analyse Exploratoire de Données
10 Chapitres
Nettoyage et pré-traitement des données
Gestion des valeurs manquantes
Visualisation et exploration des données
Analyse statistique
Détection et traitement des valeurs aberrantes
Analyse de corrélation
Analyse de la distribution des données
Techniques de réduction de la dimensionnalité
Identifier les relations entre les variables
Conclusion
Partie 2 : Feature Engineering
Techniques de Feature Engineering
10 Chapitres
Sélection et extraction des Features
Encodage des variables catégorielles
Mise à l’échelle et normalisation
Création de nouvelles Features
Traitement des données déséquilibrées
Traitement de l’asymétrie et du kurtosis
Traitement des catégories rares
Traitement des données de séries temporelles
Pré-traitement du texte
Conclusion
Partie 3 : Mathématiques et Stats
Les indispensables en Mathématiques pour la DS
4 Chapitres
Statistiques
Calculs
Algèbre Linéaire
Probabilité
Statistiques et Modélisation Statistique
7 Chapitres
Théorie des probabilités
Statistiques descriptives
Statistiques inférentielles
Modèles linéaires généralisés
Statistiques et Inférences bayésiennes
Chaîne de Markov Monte Carlo
Conclusion
11 Chapitres
#2 – Enquête au près d’étudiants d’une université
Partie 4 : Algorithmes de Machine Learning
Les algorithmes de ML
2 Chapitres
Types d’algorithmes de ML
Aperçu du processus d’apprentissage automatique
Algorithmes de Régression
9 Chapitres
Régression linéaire
Régression polynomiale
Régression Ridge
Régression Lasso
Régression Elastic Net
Régression par arbre de décision
Régression Random Forest
Régression par renforcement du gradient
Régression de vecteur de support
Algorithmes de Classification
8 Chapitres
Régression logistique
k-Nearest Neighbors (k-NN)
Classification Naive Bayes
Classification par arbre de décision
Classification Random Forest
Classification par renforcement du gradient
Machine à vecteurs de support (SVM)
Réseaux de neurones artificiels (ANN)
Algorithmes de Clustering
4 Chapitres
Clustering k-Means
Clustering hiérarchique
DBSCAN
Modèles de mélange gaussien (GMM)
Mes conseils pour choisir le bon algorithme
BONUS
7 Chapitres
Étude de cas n° 1 : Starbucks
Étude de cas n° 2 : Pricing dynamique d’Amazon
Étude de cas n° 3 : Moteur de recommandation de Spotify
Étude de cas n° 4 : Algorithme de recherche de Google
Étude de cas n° 5 : Moteur de recommandation de Netflix
Étude de cas n° 6 : Changement climatique à la NASA
Étude de cas n° 7 : Analyse d’images par GE Healthcare