1
Présentation de l’écosystème Python scientifique
- Panorama de l’écosystème scientifique de Python : les librairies incontournables.
- Savoir ou trouver de nouvelles librairies et juger de leur pérennité.
- Les principaux outils et logiciels open source pour la data science.
Travaux pratiques
Installation de Python 3, d'Anaconda et de Jupiter Notebook.
2
Travailler les données avec Python
- Le socle scientifique Python : la SciPy Stack.
- Les bonnes pratiques pour bien démarrer votre projet de data science avec Python.
- Les formats de fichiers scientifiques et les librairies pour les manipuler.
- Pandas : l’analyse de données tabulaires (fichiers csv, excel...), statistiques, pivots, filtres, recherche…
- Numpy : calcul numérique et algèbre linéaire (les vecteurs, matrices, images).
- L’extraction des données,la préparation , le nettoyage.
Travaux pratiques
Ecrire des scripts Python permettant de travailler avec des données issues de fichiers, afin d’appliquer des filtres, des traitements de formatage, de nettoyage.
3
Introduction à la modélisation
- Les étapes de construction d'un modèle.
- Les algorithmes supervisés et non supervisés.
- Le choix entre la régression et la classification.
Travaux pratiques
Intégration dans l’environnement installé de scripts Python, pour analyse.
4
Procédures d'évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion, de coût et la courbe ROC et AUC.
Travaux pratiques
Mise en place d'échantillonnage de jeux de données. Effectuer des tests d'évaluations sur plusieurs modèles fournis.
5
Les algorithmes supervisés
- Le principe de régression linéaire univariée.
- La régression multivariée.
- La régression polynomiale.
- La régression régularisée.
- Le Naive Bayes.
- La régression logistique.
Travaux pratiques
Mise en œuvre des régressions et des classifications sur plusieurs types de données.
6
Les algorithmes non supervisés
- Le clustering hiérarchique.
- Le clustering non hiérarchique.
- Les approches mixtes.
Travaux pratiques
Traitements de clustering non supervisés sur plusieurs jeux de données.