1 - Introduction
- Zoom sur les données : format, volumes, structures,… et les requêtes, attentes des utilisateurs
- Etapes de la préparation des données
- Définitions, présentation du data munging
- Le rôle du data scientist
2 - Gouvernance des données
- Qualité des données
- Transformation de l’information en donnée
- Qualification et enrichissement
- Sécurisation et étanchéité des lacs de données
- Flux de données et organisation dans l’entreprise
- De la donnée maître à la donnée de travail
- MDM
- Mise en oeuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données
3 - Traitements statistiques de base
- Introduction aux calculs statistiques
- Paramétrisation des fonctions
- Applications aux fermes de calculs distribués
- Problématiques induites
- Approximations
- Précision des estimations
4 - Data Mining
- Besoin, apports et enjeux
- Extraction et organisation des classes de données
- Analyse factorielle
5 - Machine Learning
- Apprentissage automatique
- Définition, les attentes par rapport au Machine Learning
- Les valeurs d’observation, et les variables cibles
- Ingénierie des variables
- Les méthodes : apprentissage supervisé et non supervisé
- Classification des données
- Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, etc
- Création de jeux d’essai, entraînement et construction de modèles
- Prévisions à partir de données réelles
- Mesure de l’efficacité des algorithmes
- Courbes ROC
- Parallélisation des algorithmes
- Choix automatique
6 - IA
- Introduction aux réseaux de neurones
- Réseaux de neurones à convolution
- Modèles de CNN
- Les types de couches : convolution, pooling et pertes
- L’approche du Deep Learning
- Deeplearning4j sur Spark
7 - Les risques et écueils
- Importance de la préparation des données
- L’écueil du « surapprentissage »
8 - Visualisation des données
- L’intérêt de la visualisation
- Outils disponibles
- Exemples de visualisation avec R et Python