Suivez nous

Appelez-nous vite au 01 84 24 01 82

Menu

Formation précédente

Formation suivante

Toutes nos formations en Base de données :

Spark : Traitement de données

CONNAISSANCES PREALABLES

Connaissance de Java ou Python, des bases Hadoop, et notions de calculs statistiques

DURÉE

3 jours (21 heures)

Eligible CPF : Non

PROFIL DES STAGIAIRES

Chefs de projet
Data scientists
Développeurs

OBJECTIFS

Savoir mettre en oeuvre Spark pour optimiser des calculs

METHODES PEDAGOGIQUES

Mise à disposition d’un poste de travail par participant
Remise d’une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions

METHODES D'EVALUATION DES ACQUIS

Auto-évaluation des acquis par le stagiaire via un questionnaire
Attestation de fin de stage adressée avec la facture

FORMATEUR

Consultant-Formateur expert Bigdata

CONTENU DU COURS

1 - Introduction

Présentation Spark, origine du projet, apports, principe de fonctionnement
Langages supportés

2 - Premiers pas

Utilisation du shell Spark avec Scala ou Python
Gestion du cache

3 - Règles de développement

Mise en pratique en Java et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistence

4 - Cluster

Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext,Cluster Manager, Executor sur chaque nœud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l’interface web

5 - Intégration hadoop

Travaux pratiques avec YARN
Création et exploitation d’un cluster Spark/YARN

6 - Support Cassandra

Description rapide de l’architecture Cassandra. Mise en oeuvre depuis Spark
Exécution de travaux Spark s’appuyant sur une grappe Cassandra

7 - Spark SQL

Objectifs : traitement de données structurées
Optimisation des requêtes
Mise en oeuvre de Spark SQL
Comptabilité Hive
Travaux pratiques : en ligne de commande avec Spark SQL, avec un pilote JDBC
L’API Dataset : disponible avec Scala ou Java
Collections de données distribuées
Exemples

8 - Streaming

Objectifs , principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka, …
Notion de StreamingContexte, DStreams, démonstrations
Travaux pratiques : traitement de flux DStreams en Java

9 - MLib

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistence, statistiques
Support de RDD
Mise en oeuvre avec les DataFrames

10 - GraphX

Fourniture d’algorithmes, d’opérateurs simples pour des calcul statistiques sur les graphes
Travaux pratiques : exemples d’opérations sur les graphes

Formation inter

à partir de

1795,5 €

par stagiaire

Besoin d'aide >

Un renseignement ?
Un devis ?

Nos
références

Suivez-nous

Contact & renseignements

info-formations@trouvezvotreformation.com

67, Rue de Paris
95720 Le Mesnil Aubry