Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques
DURÉE
2 jours (14 heures)
Eligible CPF : Non
PROFIL DES STAGIAIRES
Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données
OBJECTIFS
Comprendre le fonctionnement de pig, savoir développer des requêtes en latin, pour effectuer des transformations sur des données,des analyses de données,intégrer des données de différents formats.
METHODES PEDAGOGIQUES
Mise à disposition d’un poste de travail par participant
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS
1 - Introduction
Le projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l’écosystème Hadoop
Chaîne de fonctionnement
Comparatif avec l’approche Hive ou Spark
2 - Mise en oeuvre
Rappels sur les commandes HDFS
Prérequis techniques, configuration de Pig
Travaux pratiques: Exécution : les différents modes : interactif ou batch- Principe de l’exécution de scripts Pig Latin avec Grunt
3 - Base latin
Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions