Chefs de projet, data scientists, statisticiens, développeurs souhaitant comprendre les apports de R pour l'analyse des données, et savoir l'intégrer à un environnement Hadoop
OBJECTIFS
Connaître les principales fonctions statistiques de R, et savoir utiliser des programmes R dans un environnement BigData, en s'appuyant sur le système distribué hdfs
METHODES PEDAGOGIQUES
Mise à disposition d’un poste de travail par participant
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
METHODES D'EVALUATION DES ACQUIS
Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation de fin de stage adressée avec la facture
FORMATEUR
Consultant-Formateur expert Bigdata
CONTENU DU COURS
1 - Présentation R
Le projet R Programming
Calculs statistiques et génération de graphiques
Points forts de R Programming
Besoins du BigData
Positionnement R programming par rapport à Hadoop
2 - Mise en oeuvre de R
Travaux pratiques : installation et tests sur une plate-forme CentOS
Utilisation de R en mode commande
Commandes de base. Syntaxe
Opérations de base. Expressions
Manipulations de nombres, vecteurs, tableaux, matrices.listes, etc.
3 - Tableaux et matrices
Déclaration, dimensionnement, indexation
Opérations de base : produit de tableaux, transposition, produits de matrices
Importation SQL. Importation depuis un socket réseau
Travaux pratiques : importation de données géodésiques et export au format Json
7 - Intégration Hadoop
Association de la puissance du calcul distribué fourni par les outils hadoop
Différents moyens d’intégration : sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
Transformation d’un dataframe R en un dataframe Spark
Travaux pratiques avec Hadoop
8 - Fonctions spécifiques
Définition de nouvelles fonctions. Appels. Passage d’argument
Construction d’une bibliothèque
Diffusion, installation avec R CMD INSTALL
9 - Evolutions
Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR