Module 1
Introduction
Introduction
3min
Leçons vidéo
Exercices
Lab pratique
Vue d'ensemble du cours et problématiques du fine-tuning
Pourquoi RFT vs SFT
Cas d'usage du reinforcement fine-tuning
Présentation de l'algorithme GRPO
Module 2
Introduction au Reinforcement Learning
Introduction au Reinforcement Learning
7min
Leçons vidéo
Exercices
Lab pratique
Fondamentaux de l'apprentissage par renforcement
Leçon 2.1 : Concepts clés du RL (state, action, reward, policy)
Leçon 2.2 : Cycle d'apprentissage
Leçon 2.3 : Application aux LLMs
Module 3
Bénéfices du Reinforcement Fine-Tuning
Bénéfices du Reinforcement Fine-Tuning
4min
Leçons vidéo
Exercices
Lab pratique
Avantages du RFT et quand l'utiliser
Comparaison RFT vs SFT
Tâches idéales pour RFT
Efficacité sur données limitées
Module 4
Un LLM Peut-il Maîtriser Wordle ?
Un LLM Peut-il Maîtriser Wordle ?
10min
Leçons vidéo
Exercices
Lab pratique
Wordle comme problème de reinforcement learning
Code inclus : Modélisation de Wordle comme environnement RL
Stratégies d'apprentissage
Implémentation pratique
Module 5
Fonctions de Récompense
Fonctions de Récompense
10min
Leçons vidéo
Exercices
Lab pratique
Conception de reward functions efficaces
Code inclus : Types de rewards (binaire, partiel, step-wise)
Design patterns pour rewards
Rewards pour code, maths, tâches créatives
Module 6
LLM comme Juge
LLM comme Juge
12min
Leçons vidéo
Exercices
Lab pratique
Utilisation de LLMs pour évaluation subjective
Code inclus : Prompting du juge LLM
Évaluation de tâches subjectives (résumés, créativité, qualité)
Normalisation des scores
Module 7
Reward Hacking
Reward Hacking
7min
Leçons vidéo
Exercices
Lab pratique
Prévention du reward hacking
Code inclus : Détection des patterns de hacking
Penalty functions
Techniques de mitigation
Module 8
Calcul de Loss dans GRPO
Calcul de Loss dans GRPO
18min
Leçons vidéo
Exercices
Lab pratique
Composants mathématiques de la loss GRPO
Code inclus : Ratio de probabilités
Advantages et baseline
Clipping et KL-divergence
Implémentation complète
Module 9
Assemblage Final - Training Wordle
Assemblage Final - Training Wordle
8min
Leçons vidéo
Exercices
Lab pratique
Training job complet end-to-end
Code inclus : Pipeline de training complet
Configuration des hyperparamètres
Monitoring et évaluation