Adservio - Superintelligence for work

Module 1

Introduction

3min

Leçons vidéo

Exercices

Lab pratique

Vue d'ensemble du cours et problématiques du fine-tuning

Pourquoi RFT vs SFT

Cas d'usage du reinforcement fine-tuning

Présentation de l'algorithme GRPO

Module 2

Introduction au Reinforcement Learning

7min

Leçons vidéo

Exercices

Lab pratique

Fondamentaux de l'apprentissage par renforcement

Leçon 2.1 : Concepts clés du RL (state, action, reward, policy)

Leçon 2.2 : Cycle d'apprentissage

Leçon 2.3 : Application aux LLMs

Module 3

Bénéfices du Reinforcement Fine-Tuning

4min

Leçons vidéo

Exercices

Lab pratique

Avantages du RFT et quand l'utiliser

Comparaison RFT vs SFT

Tâches idéales pour RFT

Efficacité sur données limitées

Module 4

Un LLM Peut-il Maîtriser Wordle ?

10min

Leçons vidéo

Exercices

Lab pratique

Wordle comme problème de reinforcement learning

Code inclus : Modélisation de Wordle comme environnement RL

Stratégies d'apprentissage

Implémentation pratique

Module 5

Fonctions de Récompense

10min

Leçons vidéo

Exercices

Lab pratique

Conception de reward functions efficaces

Code inclus : Types de rewards (binaire, partiel, step-wise)

Design patterns pour rewards

Rewards pour code, maths, tâches créatives

Module 6

LLM comme Juge

12min

Leçons vidéo

Exercices

Lab pratique

Utilisation de LLMs pour évaluation subjective

Code inclus : Prompting du juge LLM

Évaluation de tâches subjectives (résumés, créativité, qualité)

Normalisation des scores

Module 7

Reward Hacking

7min

Leçons vidéo

Exercices

Lab pratique

Prévention du reward hacking

Code inclus : Détection des patterns de hacking

Penalty functions

Techniques de mitigation

Module 8

Calcul de Loss dans GRPO

18min

Leçons vidéo

Exercices

Lab pratique

Composants mathématiques de la loss GRPO

Code inclus : Ratio de probabilités

Advantages et baseline

Clipping et KL-divergence

Implémentation complète

Module 9

Assemblage Final - Training Wordle

8min

Leçons vidéo

Exercices

Lab pratique

Training job complet end-to-end

Code inclus : Pipeline de training complet

Configuration des hyperparamètres

Monitoring et évaluation

Fine-Tuning par Renforcement des LLMs

À l'issue de cette formation, vous serez capable de :

Programme Détaillé

Introduction

Introduction

Introduction au Reinforcement Learning

Introduction au Reinforcement Learning

Bénéfices du Reinforcement Fine-Tuning

Bénéfices du Reinforcement Fine-Tuning

Un LLM Peut-il Maîtriser Wordle ?

Un LLM Peut-il Maîtriser Wordle ?

Fonctions de Récompense

Fonctions de Récompense

LLM comme Juge

LLM comme Juge

Reward Hacking

Reward Hacking

Calcul de Loss dans GRPO

Calcul de Loss dans GRPO

Assemblage Final - Training Wordle

Assemblage Final - Training Wordle

Prérequis pour suivre cette formation

Public Cible

Compétences que vous allez acquérir

Ressources

Informations Pratiques

Pourquoi choisir Adservio Academy ?