Adservio - Superintelligence for work

Module 1

Introduction au Data Engineering

Leçons vidéo

Exercices

Lab pratique

Module 1 - Introduction au Data Engineering : Data Engineering Lifecycle complet de bout en bout, stakeholders et collaborateurs (data scientists, analysts, business users), framework mental pour concevoir des solutions DE scalables, rôles et responsabilités du data engineer dans l'organisation moderne. Module 2 - Lifecycle et Undercurrents : Étapes du lifecycle DE (génération, ingestion, transformation, serving), stack technologique cloud moderne et écosystème d'outils, architecture de données fondamentale et patterns de design, principes de sécurité et gouvernance pour conformité RGPD. Module 3 - Data Architecture : Composants architecturaux end-to-end (source systems, storage, compute, serving), évaluation et sélection de technologies selon contexte et contraintes, flexibilité et évolutivité architecturale pour croissance future, patterns architecturaux modernes (Lambda, Kappa, Medallion). Module 4 - Requirements to Architecture : Design d'architecture cloud complète avec AWS/Azure/GCP, implémentation batch et streaming selon use cases, projet pratique intégré couvrant l'ensemble du cycle, best practices industrielles et leçons du terrain.

Module 2

Source Systems, Data Ingestion et Pipelines

Leçons vidéo

Exercices

Lab pratique

Module 1 - Working with Source Systems : Formats de données (JSON, CSV, Parquet, Avro) et leurs cas d'usage, bases de données relationnelles vs NoSQL (choix architecturaux), ACID compliance et transactions pour intégrité, CRUD operations et APIs pour interactions programmatiques, object storage (S3, GCS, Azure Blob) pour données massives, message queues vs streaming platforms et leurs différences fondamentales. Module 2 - Data Ingestion : Batch vs Streaming ingestion (quand utiliser chaque approche), ETL vs ELT patterns et trade-offs performance/flexibilité, REST APIs et web scraping pour extraction de données externes, event-streaming platforms (Kafka, Kinesis) pour flux temps réel, partitionnement et sharding pour scalabilité, Change Data Capture (CDC) pour synchronisation incrémentale. Module 3 - DataOps : CI/CD pour pipelines de données et automatisation, Infrastructure as Code avec Terraform pour reproductibilité, observability et monitoring pour visibilité opérationnelle, data quality et validation avec Great Expectations, testing de pipelines (unit tests, integration tests), documentation et versioning pour maintenance long terme. Module 4 - Orchestration et Monitoring : Airflow DAGs et architecture distribuée, Taskflow API moderne pour workflows Pythoniques, best practices Airflow en production (scheduler, executor, workers), intégration Great Expectations pour quality checks automatiques, alerting et incident management pour réactivité opérationnelle.

Module 3

Data Storage et Queries

Leçons vidéo

Exercices

Lab pratique

Module 1 - Storage Ingredients : Storage physique (disk, memory, SSD) et caractéristiques performance/coût, object storage vs block storage vs file storage et leurs use cases, row-oriented vs column-oriented databases (OLTP vs OLAP), graph databases et vector databases pour données spécialisées, compression et encodage pour optimisation stockage et performance. Module 2 - Storage Abstractions : Data warehouses modernes (Snowflake, BigQuery, Redshift) et architectures MPP, data lakes (partitioning, cataloging, metadata management) pour flexibilité, open table formats (Apache Iceberg, Delta Lake, Hudi) pour ACID sur data lakes, data lakehouse architecture combinant avantages warehouses et lakes, medallion architecture (bronze, silver, gold layers) pour qualité progressive des données. Module 3 - Queries : Query lifecycle et optimisation pour performance maximale, SQL avancé (window functions, CTEs, subqueries) pour analyses complexes, indexation et performance tuning pour accélération requêtes, aggregate queries et join optimization pour réduire temps d'exécution, query engines modernes (Presto, Trino, DuckDB), streaming queries et real-time analytics pour insights instantanés.

Module 4

Data Modeling, Transformation et Serving

Leçons vidéo

Exercices

Lab pratique

Normalisation et dénormalisation

Star schema (fact tables et dimension tables)

Méthodologies : Inmon, Kimball, Data Vault 2.0

One Big Table (OBT) pattern

Slowly Changing Dimensions (SCD)

Preprocessing pour supervised vs unsupervised learning

Feature engineering sur données tabulaires

Text processing et vectorization

Image processing et augmentation

Time series feature extraction

Batch transformation patterns

Apache Spark architecture et APIs

Spark vs Hadoop comparaison

Spark vs Pandas performance

SparkSQL vs DataFrames

Spark Structured Streaming

Serving pour analytics et dashboards

Serving pour machine learning

Semantic layer et metrics layer

Views et materialized views

Caching strategies

Pipeline end-to-end complet

Certificat Professionnel Data Engineering

À l'issue de cette formation, vous serez capable de :

Programme Détaillé

Introduction au Data Engineering

Introduction au Data Engineering

Source Systems, Data Ingestion et Pipelines

Source Systems, Data Ingestion et Pipelines

Data Storage et Queries

Data Storage et Queries

Data Modeling, Transformation et Serving

Data Modeling, Transformation et Serving

Prérequis pour suivre cette formation

Public Cible

Compétences que vous allez acquérir

Ressources

Informations Pratiques

Pourquoi choisir Adservio Academy ?