Retour
CoursDébutantGénéralGenAI Builders

Certificat Professionnel Data Engineering

Famille : 🟦 F1 - IA Classique

Express

À l'issue de cette formation, vous serez capable de :

Maîtriser les concepts fondamentaux
Acquérir des compétences pratiques

Programme Détaillé

4 modules de formation

Module 1

Introduction au Data Engineering

Leçons vidéo
Exercices
Lab pratique

Module 1 - Introduction au Data Engineering : Data Engineering Lifecycle complet de bout en bout, stakeholders et collaborateurs (data scientists, analysts, business users), framework mental pour concevoir des solutions DE scalables, rôles et responsabilités du data engineer dans l'organisation moderne. Module 2 - Lifecycle et Undercurrents : Étapes du lifecycle DE (génération, ingestion, transformation, serving), stack technologique cloud moderne et écosystème d'outils, architecture de données fondamentale et patterns de design, principes de sécurité et gouvernance pour conformité RGPD. Module 3 - Data Architecture : Composants architecturaux end-to-end (source systems, storage, compute, serving), évaluation et sélection de technologies selon contexte et contraintes, flexibilité et évolutivité architecturale pour croissance future, patterns architecturaux modernes (Lambda, Kappa, Medallion). Module 4 - Requirements to Architecture : Design d'architecture cloud complète avec AWS/Azure/GCP, implémentation batch et streaming selon use cases, projet pratique intégré couvrant l'ensemble du cycle, best practices industrielles et leçons du terrain.

Module 2

Source Systems, Data Ingestion et Pipelines

Leçons vidéo
Exercices
Lab pratique

Module 1 - Working with Source Systems : Formats de données (JSON, CSV, Parquet, Avro) et leurs cas d'usage, bases de données relationnelles vs NoSQL (choix architecturaux), ACID compliance et transactions pour intégrité, CRUD operations et APIs pour interactions programmatiques, object storage (S3, GCS, Azure Blob) pour données massives, message queues vs streaming platforms et leurs différences fondamentales. Module 2 - Data Ingestion : Batch vs Streaming ingestion (quand utiliser chaque approche), ETL vs ELT patterns et trade-offs performance/flexibilité, REST APIs et web scraping pour extraction de données externes, event-streaming platforms (Kafka, Kinesis) pour flux temps réel, partitionnement et sharding pour scalabilité, Change Data Capture (CDC) pour synchronisation incrémentale. Module 3 - DataOps : CI/CD pour pipelines de données et automatisation, Infrastructure as Code avec Terraform pour reproductibilité, observability et monitoring pour visibilité opérationnelle, data quality et validation avec Great Expectations, testing de pipelines (unit tests, integration tests), documentation et versioning pour maintenance long terme. Module 4 - Orchestration et Monitoring : Airflow DAGs et architecture distribuée, Taskflow API moderne pour workflows Pythoniques, best practices Airflow en production (scheduler, executor, workers), intégration Great Expectations pour quality checks automatiques, alerting et incident management pour réactivité opérationnelle.

Module 3

Data Storage et Queries

Leçons vidéo
Exercices
Lab pratique

Module 1 - Storage Ingredients : Storage physique (disk, memory, SSD) et caractéristiques performance/coût, object storage vs block storage vs file storage et leurs use cases, row-oriented vs column-oriented databases (OLTP vs OLAP), graph databases et vector databases pour données spécialisées, compression et encodage pour optimisation stockage et performance. Module 2 - Storage Abstractions : Data warehouses modernes (Snowflake, BigQuery, Redshift) et architectures MPP, data lakes (partitioning, cataloging, metadata management) pour flexibilité, open table formats (Apache Iceberg, Delta Lake, Hudi) pour ACID sur data lakes, data lakehouse architecture combinant avantages warehouses et lakes, medallion architecture (bronze, silver, gold layers) pour qualité progressive des données. Module 3 - Queries : Query lifecycle et optimisation pour performance maximale, SQL avancé (window functions, CTEs, subqueries) pour analyses complexes, indexation et performance tuning pour accélération requêtes, aggregate queries et join optimization pour réduire temps d'exécution, query engines modernes (Presto, Trino, DuckDB), streaming queries et real-time analytics pour insights instantanés.

Module 4

Data Modeling, Transformation et Serving

Leçons vidéo
Exercices
Lab pratique
Normalisation et dénormalisation
Star schema (fact tables et dimension tables)
Méthodologies : Inmon, Kimball, Data Vault 2.0
One Big Table (OBT) pattern
Slowly Changing Dimensions (SCD)
Preprocessing pour supervised vs unsupervised learning
Feature engineering sur données tabulaires
Text processing et vectorization
Image processing et augmentation
Time series feature extraction
Batch transformation patterns
Apache Spark architecture et APIs
Spark vs Hadoop comparaison
Spark vs Pandas performance
SparkSQL vs DataFrames
Spark Structured Streaming
Serving pour analytics et dashboards
Serving pour machine learning
Semantic layer et metrics layer
Views et materialized views
Caching strategies
Pipeline end-to-end complet

Prérequis pour suivre cette formation

Programmation Python (intermédiaire)
SQL de base à intermédiaire
Connaissances cloud (AWS recommandé, mais concepts transférables)
Compréhension des systèmes distribués (utile)
1-2 ans en développement logiciel ou data analysis (recommandé)
Exposition à des systèmes de bases de données
Familiarité avec la ligne de commande
Ordinateur avec Python 3.x
Compte cloud (AWS Free Tier pour labs)
20 Go d'espace disque pour environnements locaux
Accès internet stable

Public Cible

Développeurs
Ingénieurs logiciels

Compétences que vous allez acquérir

Compétences pratiques en IA générative

Ressources

Informations Pratiques

Détails de la formation

Durée
60-80h
Niveau
Débutant
Prix
2230 €
Langue
Français
Certification
-

Pourquoi choisir Adservio Academy ?

Formations 100% pratiques
Formateurs experts certifiés
Accompagnement personnalisé
Contenu à jour avec l'IA