1
Import des données et preprocessing
- L'environnement de développement Python / Anaconda / Jupyter Notebook.
- Pandas : l’analyse de données tabulaires (CSV, Excel...), statistiques, pivots, jointures, filtres.
- Traitement des valeurs manquantes : imputation par la moyenne, médiane, interpolation, knn…
- Traitement des Outliers : analyse graphique, méthode de l’IQR, Z-score.
- Standardisation.
- Normalisation : Skewness et Kurtosis.
- Données non balancées : Undersampling, Oversampling, SMOTE.
Travaux pratiques
Manipulation de Python dans un notebook Jupyter. Exercice de mise en pratique avec pandas.
Mise en place de l’ensemble des pré-traitements à l’aide des librairies python spécifiques.
2
Entraînement de modèles et évaluation
- Modèles d’apprentissage supervisés et non-supervisés les plus courants.
- Entraînement de modèles avec Scikit-learn.
- Méthodes d’évaluations : savoir choisir les bonnes métriques pour chaque problématique.
Travaux pratiques
Entraînement de plusieurs modèles supervisés et non supervisés, comparaison des performances et choix du meilleur modèle.
3
Optimisation des modèles et log des performances
- Présentation des librairies Optuna, Hyperopt.
- Présentation de l’approche Grid Search pour identifier les meilleurs hyper paramètres d’un modèle.
- Log des hyper paramètres et des performances dans Mlflow.
Travaux pratiques
Optimisation des modèles élaborés dans la partie précédente et log des métriques / hyperparamètres dans Mlflow.
4
Modèle et Data Drift
- Intérêt de vérifier le modèle Drift et le Data Drift.
- Présentation des librairies Evidently et Streamlit.
Travaux pratiques
Mise en place d’un Dashboard Evidently pour monitorer le Drift des données.
5
Industrialisation : déploiement dans le cloud
- Présentation du service AWS EC2.
- Présentation de Flask pour le pour la mise à disposition d’un modèle de machine learning par le biais d’une API.
- Présentation de divers outils de connexion à l’environnement virtuel tels que Putty, Visual Studio Code…
- Déploiement du code par le biais de GitHub.
Travaux pratiques
Déploiement d’un modèle sur un environnement cloud avec la librairie Flask.