Module 1
Introduction
Introduction
Leçons vidéo
Exercices
Lab pratique
Cette formation vous apprendra à servir efficacement des LLMs en production. L'optimisation du serving est cruciale pour réduire les coûts et améliorer l'expérience utilisateur.
Défis du serving LLM :
Les LLMs sont gourmands en ressources (GPU, mémoire). Un serving inefficace entraîne des coûts élevés et une latence importante. L'optimisation est essentielle pour la production.
Ce que vous allez apprendre :
Architecture de serving LLM (vLLM, TGI, TensorRT-LLM)
Techniques d'optimisation (quantization, pruning)
Batching et continuous batching
Caching et KV cache optimization
GPU memory management
Multi-GPU et tensor parallelism
Load balancing et auto-scaling
Monitoring des performances
Réduction de la latence
Optimisation du coût par token
Cette formation est essentielle pour déployer des LLMs de manière efficace et économique en production.
Module 2
Fondamentaux
Fondamentaux
Leçons vidéo
Exercices
Lab pratique
Concepts théoriques et pratiques de base.
Lab : Exercices pratiques
Module 3
Application Avancée
Application Avancée
Leçons vidéo
Exercices
Lab pratique
Techniques avancées et cas d'usage réels.
Lab : Exercices pratiques
Module 4
Production et Best Practices
Production et Best Practices
Leçons vidéo
Exercices
Lab pratique
Déploiement en production et bonnes pratiques.
Lab : Exercices pratiques