Data Engineering avec Kafka, Cassandra et Spark

Catégories : DATA ET INTELLIGENCE ARTIFICIELLE

À propos de la formation

– Comprendre les principes de base de l’ingénierie des données
– Maîtriser l’utilisation de Kafka pour la collecte et la diffusion de données en temps réel
– Apprendre à utiliser Cassandra pour le stockage et la gestion de données distribuées
– Explorer les fonctionnalités de Spark pour le traitement de données en batch et en temps réel

Contenu de la formation

Session 1: Introduction à l’Ingénierie des Données …………………………….. (3 heures)
- Vue d’ensemble de l’ingénierie des données : définitions, objectifs, processus - Rôle de l’ingénieur de données dans le traitement et la gestion des données - Principales technologies utilisées en ingénierie des données : Kafka, Cassandra, Spark

Session 2: Introduction à Apache Kafka …………………………………………… (3 heures)
- Présentation de Kafka : architecture, concepts de base - Utilisation de Kafka pour la collecte et la diffusion de flux de données en temps réel - Configuration de producteurs, de consommateurs et de topics Kafka

Session 3: Traitement de Données avec Apache Spark ………………………………. (3 heures)
- Introduction à Apache Spark : RDDs, DataFrames, Datasets - Utilisation de Spark pour le traitement de données en batch - Écriture de programmes Spark en utilisant l’API Spark en Python (PySpark)

Session 4: Stockage et Gestion de Données avec Apache Cassandra ………………………….(3 heures)
- Présentation de Cassandra : architecture, modèle de données - Utilisation de Cassandra pour le stockage et la gestion de données distribuées - Création de tables, insertion de données et requêtes avec CQL (Cassandra Query Language)

Session 5: Traitement de Données en Temps Réel avec Kafka et Spark Streaming …………….(3 heures)
- Intégration de Kafka avec Spark pour le traitement de données en temps réel - Utilisation de Spark Streaming pour le traitement de flux de données en temps réel - Développement d’applications de traitement de flux en utilisant Kafka et Spark

Session 6: Modélisation de Données avec Cassandra ………………………………….. (3 heures)
- Conception de modèle de données avec Cassandra : clés primaires, clés de partitionnement, clés de regroupement - Utilisation de Cassandra pour des cas d’utilisation spécifiques : séries temporelles, données en streaming, etc.

Session 7: Gestion de la Haute Disponibilité et de la Tolérance aux Pannes avec Kafka et Cassandra …………….. (3 heures)
-Configuration de la haute disponibilité pour Kafka et Cassandra - Stratégies de réplication et de partitionnement pour assurer la tolérance aux pannes - Gestion des échecs et de la reprise pour assurer la disponibilité continue

Session 8: Optimisation des Performances avec Kafka, Cassandra et Spark (3 heures)
- Techniques d’optimisation des performances pour Kafka, Cassandra et Spark - Configuration des paramètres pour améliorer les performances - Méthodes de surveillance et de débogage pour identifier et résoudre les goulets d’étranglement

Session 9: Déploiement et Maintenance des Clusters Kafka, Cassandra et Spark ………………(3 heures)
- Déploiement de clusters Kafka, Cassandra et Spark - Bonnes pratiques pour la configuration et la gestion des clusters - Maintenance régulière et mise à jour des clusters

Session 10: Projet Pratique et Conclusion ………………….. (3 heures)
- Réalisation d’un projet pratique intégrant les concepts et les techniques appris tout au long de la formation - Présentation des projets et des solutions développées par les participants - Récapitulatif des principaux enseignements et des étapes à suivre pour poursuivre l’apprentissage en ingénierie des données

Notes et avis de l’apprenant

Encore aucun avis !