Big Data Une journée pour tout comprendre
Limité au monde des GAFA il y a quelques années encore, la gestion des données volumineuses est une préoccupation pour toutes les entreprises, quel que soit leur domaine d’activité. Le Big Data est un vaste sujet : stratégique, organisationnel, et technique, il requiert des adaptations importantes à la fois dans les technologies mais aussi dans les esprits. Ces arbitrages demeurent complexes, surtout face à un sujet dont l’étendue et la complexité en rendent une lecture difficile et souvent pleine de fausses idées.
Cette conférence se décompose en deux parties distinctes : la matinée est consacrée à une présentation générale du Big Data, et l’après-midi à un tour d’horizon des technologies du Big Data.
- +15ans d'expérience pour tous nos formateurs
- 5.5jours
À qui s’adresse cette formation "Big Data Une journée pour tout comprendre" ?
Description de la formation "Big Data Une journée pour tout comprendre"
-
Méthodes pédagogiques
- La formation se compose de travaux pratiques (mises en situation, débats, exercices).
- Une évaluation quotidienne de l'acquisition des connaissances de la veille est effectuée.
- Une synthèse est proposée en fin de formation.
- Une évaluation à chaud sera proposée au stagiaire à la fin du cours.
- Un support de cours (version électronique) sera remis à chaque participant comprenant les slides sur la théorie, les exercices.
- Une feuille d'émargement par demi-journée de présence est fournie en fin de formation ainsi qu'une attestation de fin de formation si le stagiaire a bien assisté à la totalité de la session.
-
Présentation
Limité au monde des GAFA il y a quelques années encore, la gestion des données volumineuses est une préoccupation pour toutes les entreprises, quel que soit leur domaine d’activité. Le Big Data est un vaste sujet : stratégique, organisationnel, et technique, il requiert des adaptations importantes à la fois dans les technologies mais aussi dans les esprits. Ces arbitrages demeurent complexes, surtout face à un sujet dont l’étendue et la complexité en rendent une lecture difficile et souvent pleine de fausses idées.
Cette conférence se décompose en deux parties distinctes : la matinée est consacrée à une présentation générale du Big Data, et l’après-midi à un tour d’horizon des technologies du Big Data.
-
Objectifs
- Première partie : le matin
- Connaître les origines du BigData
- Découvrir les concepts qui se cachent derrière le terme BigData
- Déterminer les usages pertinents au travers d’exemples
- Définir les étapes qui jalonnent la mise en œuvre d’une approche BigData
- Mesurer l’impact du BigData sur notre quotidien
- Évaluer la relation entre BigData et Intelligence Artificielle
- Deuxième partie : l’après-midi
- Dégrossir le panorama technologique des outils autours du BigData
- Utiliser nifi et/ou node-red pour automatiser vos workflows de collecte
- Pourquoi utiliser Hadoop comme infrastructure de stockage et de traitement ?
- Comprendre l’usage des frameworks Spark et Dask
- Appréhender les différentes approches en Machine Learning et Deep Learning
-
Audience
- DSI
- Architectes
- Développeurs
-
Formateur
Le formateur est un expert du domaine qui intervient sur le sujet depuis plusieurs années en formation mais aussi en conseil.
Doté d’une grande qualité d’écoute, sa pédagogie et sa compétence technique vous permettront d’acquérir une vue d’ensemble sur le Big Data.
-
Prérequis
- La connaissance d'un langage de programmation et du monde des bases de données est nécessaire.
-
Programme
Première partie : le matin
- Cette présentation utilise un fil rouge ludique et dont la compréhension est à la portée de l’ensemble de l’audience (aucun prérequis technique). Les différentes étapes d’un projet Big Data ainsi que les outils y afférent seront expliqués en s’appuyant sur un cas concret.
Origine des données
- Définir les différentes sources de données disponibles
- Données structurées / non structurées
- Comprendre les différents moyens d’y accéder
- Confidentialité des données, RGPD
Collecte
- Réflexion sur les besoins : origine, fiabilité, fréquence, coût
- Les différents formats de données
- Nettoyage et consolidation
- Problématiques techniques
Stockage
- Les limites des modèles actuels
- Le principe du datalake
- Les nouveaux modèles NoSql et NewSql
- Problématiques techniques du stockage
Traitement
- Comment traiter de gros volumes de données
- Paralléliser pour aller plus vite
Deuxième partie : l’après-midi
- Cette 2ème partie s’adresse à un public plus technique, qui nécessite un minimum de connaissances des technologies informatiques pour pouvoir suivre aisément. C’est surtout le vocabulaire qui va être plus poussé.
Collecte de données
- Nifi
- Node-red
Les nouveaux moyens de stockages
- Les nouveaux types de bases de données : key / value, document, wide-column
- MongoDB : une base de données de type document
- Scalability & Sharding
- Hadoop : Un framework de stockage et de traitement en parallèle
Hadoop
- Le framework BigData
- Les piliers : HDFS, Yarn et Mapreduce
- HDFS : architecture, découpage en block, réplication
- YARN : le chef d’orchestre des tâches Hadoop
- Mapreduce : un template de programmation pour les traitements en parallèles
- L’écosystème Hadoop : Hive, impala, …
Spark
- Un autre framework pour paralléliser les traitements
- Plusieurs langages : Python, Scala, Java
- RDD et DAG : les principes fondamentaux de Spark
- Dataframe et Dataset : structuration et typage des données
- Infrastructure d’exécution : Spark sur Yarn, mesos
Intelligence Artificielle
- Machine learning et Deep Learning
- Les librairies : Scikit learn et sparkml
- Régression | Classification | Clustering
- Analyse, nettoyage et préparation des données
- Apprentissage et scoring
-
Tarif
Nous consulter