Module 1
Introduction
Introduction
Leçons vidéo
Exercices
Lab pratique
Cette formation vous initie aux fondamentaux de la quantization pour LLMs. La quantization réduit la précision numérique des modèles pour économiser mémoire et accélérer l'inférence.
Pourquoi la quantization :
Les LLMs en pleine précision (FP32) sont très gourmands en mémoire. La quantization (INT8, INT4) peut réduire la taille de 75% avec une perte de qualité minimale.
Ce que vous allez apprendre :
Principes de la quantization
Types de quantization (post-training, quantization-aware)
Différents niveaux de précision (FP16, INT8, INT4, INT2)
Impact sur la qualité des sorties
Techniques de quantization (GPTQ, AWQ, GGUF)
Outils de quantization (bitsandbytes, AutoGPTQ)
Déploiement de modèles quantizés
Mesure des gains de performance
Trade-offs qualité/vitesse/mémoire
Cette formation vous permettra de déployer des LLMs plus efficients sur du matériel limité.
Module 2
Fondamentaux
Fondamentaux
Leçons vidéo
Exercices
Lab pratique
Concepts théoriques et pratiques de base.
Lab : Exercices pratiques
Module 3
Application Avancée
Application Avancée
Leçons vidéo
Exercices
Lab pratique
Techniques avancées et cas d'usage réels.
Lab : Exercices pratiques
Module 4
Production et Best Practices
Production et Best Practices
Leçons vidéo
Exercices
Lab pratique
Déploiement en production et bonnes pratiques.
Lab : Exercices pratiques