Module 1
Introduction
Introduction
Leçons vidéo
Exercices
Lab pratique
Cette formation vous apprendra le Reinforcement Learning from Human Feedback (RLHF), technique utilisée pour aligner les LLMs avec les préférences humaines.
Importance du RLHF :
RLHF est la technique qui a transformé les LLMs basiques en assistants utiles et alignés. C'est ce qui fait la différence entre un modèle brut et ChatGPT.
Ce que vous allez apprendre :
Principes du reinforcement learning
Collecte de feedback humain
Reward modeling
Proximal Policy Optimization (PPO)
Direct Preference Optimization (DPO)
Constitutional AI et self-alignment
Evaluation des modèles alignés
Techniques d'annotation efficaces
Challenges et limitations du RLHF
Alternatives et futures directions
Cette formation avancée vous permettra de comprendre et potentiellement implémenter l'alignement de LLMs.
Module 2
Fondamentaux
Fondamentaux
Leçons vidéo
Exercices
Lab pratique
Concepts théoriques et pratiques de base.
Lab : Exercices pratiques
Module 3
Application Avancée
Application Avancée
Leçons vidéo
Exercices
Lab pratique
Techniques avancées et cas d'usage réels.
Lab : Exercices pratiques
Module 4
Production et Best Practices
Production et Best Practices
Leçons vidéo
Exercices
Lab pratique
Déploiement en production et bonnes pratiques.
Lab : Exercices pratiques