Introduction au Data Engineering
Introduction au Data Engineering
Module 1 - Introduction au Data Engineering : Data Engineering Lifecycle complet de bout en bout, stakeholders et collaborateurs (data scientists, analysts, business users), framework mental pour concevoir des solutions DE scalables, rôles et responsabilités du data engineer dans l'organisation moderne. Module 2 - Lifecycle et Undercurrents : Étapes du lifecycle DE (génération, ingestion, transformation, serving), stack technologique cloud moderne et écosystème d'outils, architecture de données fondamentale et patterns de design, principes de sécurité et gouvernance pour conformité RGPD. Module 3 - Data Architecture : Composants architecturaux end-to-end (source systems, storage, compute, serving), évaluation et sélection de technologies selon contexte et contraintes, flexibilité et évolutivité architecturale pour croissance future, patterns architecturaux modernes (Lambda, Kappa, Medallion). Module 4 - Requirements to Architecture : Design d'architecture cloud complète avec AWS/Azure/GCP, implémentation batch et streaming selon use cases, projet pratique intégré couvrant l'ensemble du cycle, best practices industrielles et leçons du terrain.
Source Systems, Data Ingestion et Pipelines
Source Systems, Data Ingestion et Pipelines
Module 1 - Working with Source Systems : Formats de données (JSON, CSV, Parquet, Avro) et leurs cas d'usage, bases de données relationnelles vs NoSQL (choix architecturaux), ACID compliance et transactions pour intégrité, CRUD operations et APIs pour interactions programmatiques, object storage (S3, GCS, Azure Blob) pour données massives, message queues vs streaming platforms et leurs différences fondamentales. Module 2 - Data Ingestion : Batch vs Streaming ingestion (quand utiliser chaque approche), ETL vs ELT patterns et trade-offs performance/flexibilité, REST APIs et web scraping pour extraction de données externes, event-streaming platforms (Kafka, Kinesis) pour flux temps réel, partitionnement et sharding pour scalabilité, Change Data Capture (CDC) pour synchronisation incrémentale. Module 3 - DataOps : CI/CD pour pipelines de données et automatisation, Infrastructure as Code avec Terraform pour reproductibilité, observability et monitoring pour visibilité opérationnelle, data quality et validation avec Great Expectations, testing de pipelines (unit tests, integration tests), documentation et versioning pour maintenance long terme. Module 4 - Orchestration et Monitoring : Airflow DAGs et architecture distribuée, Taskflow API moderne pour workflows Pythoniques, best practices Airflow en production (scheduler, executor, workers), intégration Great Expectations pour quality checks automatiques, alerting et incident management pour réactivité opérationnelle.
Data Storage et Queries
Data Storage et Queries
Module 1 - Storage Ingredients : Storage physique (disk, memory, SSD) et caractéristiques performance/coût, object storage vs block storage vs file storage et leurs use cases, row-oriented vs column-oriented databases (OLTP vs OLAP), graph databases et vector databases pour données spécialisées, compression et encodage pour optimisation stockage et performance. Module 2 - Storage Abstractions : Data warehouses modernes (Snowflake, BigQuery, Redshift) et architectures MPP, data lakes (partitioning, cataloging, metadata management) pour flexibilité, open table formats (Apache Iceberg, Delta Lake, Hudi) pour ACID sur data lakes, data lakehouse architecture combinant avantages warehouses et lakes, medallion architecture (bronze, silver, gold layers) pour qualité progressive des données. Module 3 - Queries : Query lifecycle et optimisation pour performance maximale, SQL avancé (window functions, CTEs, subqueries) pour analyses complexes, indexation et performance tuning pour accélération requêtes, aggregate queries et join optimization pour réduire temps d'exécution, query engines modernes (Presto, Trino, DuckDB), streaming queries et real-time analytics pour insights instantanés.