Retour
CoursDébutantDeveloper ProductivityGenAI Builders

Fine-Tuning par Renforcement des LLMs

Famille : đźź© F2 - GenAI Builders

Express

Ă€ l'issue de cette formation, vous serez capable de :

Maîtriser les concepts fondamentaux
Acquérir des compétences pratiques

Programme Détaillé

9 modules de formation

Module 1

Introduction

3min
Leçons vidéo
Exercices
Lab pratique
Vue d'ensemble du cours et problématiques du fine-tuning
Pourquoi RFT vs SFT
Cas d'usage du reinforcement fine-tuning
Présentation de l'algorithme GRPO
Module 2

Introduction au Reinforcement Learning

7min
Leçons vidéo
Exercices
Lab pratique
Fondamentaux de l'apprentissage par renforcement
Leçon 2.1 : Concepts clés du RL (state, action, reward, policy)
Leçon 2.2 : Cycle d'apprentissage
Leçon 2.3 : Application aux LLMs
Module 3

Bénéfices du Reinforcement Fine-Tuning

4min
Leçons vidéo
Exercices
Lab pratique
Avantages du RFT et quand l'utiliser
Comparaison RFT vs SFT
Tâches idéales pour RFT
Efficacité sur données limitées
Module 4

Un LLM Peut-il Maîtriser Wordle ?

10min
Leçons vidéo
Exercices
Lab pratique
Wordle comme problème de reinforcement learning
Code inclus : Modélisation de Wordle comme environnement RL
Stratégies d'apprentissage
Implémentation pratique
Module 5

Fonctions de Récompense

10min
Leçons vidéo
Exercices
Lab pratique
Conception de reward functions efficaces
Code inclus : Types de rewards (binaire, partiel, step-wise)
Design patterns pour rewards
Rewards pour code, maths, tâches créatives
Module 6

LLM comme Juge

12min
Leçons vidéo
Exercices
Lab pratique
Utilisation de LLMs pour évaluation subjective
Code inclus : Prompting du juge LLM
Évaluation de tâches subjectives (résumés, créativité, qualité)
Normalisation des scores
Module 7

Reward Hacking

7min
Leçons vidéo
Exercices
Lab pratique
Prévention du reward hacking
Code inclus : Détection des patterns de hacking
Penalty functions
Techniques de mitigation
Module 8

Calcul de Loss dans GRPO

18min
Leçons vidéo
Exercices
Lab pratique
Composants mathématiques de la loss GRPO
Code inclus : Ratio de probabilités
Advantages et baseline
Clipping et KL-divergence
Implémentation complète
Module 9

Assemblage Final - Training Wordle

8min
Leçons vidéo
Exercices
Lab pratique
Training job complet end-to-end
Code inclus : Pipeline de training complet
Configuration des hyperparamètres
Monitoring et évaluation

Prérequis pour suivre cette formation

Niveau avancé
Expérience avec LLMs et fine-tuning recommandée
Compréhension des LLMs et leur fonctionnement
Bases de l'apprentissage par renforcement
Python et PyTorch
Notions de calcul de loss et optimisation
Ordinateur avec Python 3.x
Accès à une plateforme de training cloud (pour les exemples avancés)
GPU recommandé pour expérimentation locale (optionnel)

Public Cible

Développeurs
Ingénieurs logiciels

Compétences que vous allez acquérir

Compétences pratiques en IA générative

Ressources

Informations Pratiques

Détails de la formation

Durée
1-2h
Niveau
Débutant
Prix
2230 €
Langue
Français
Certification
-

Pourquoi choisir Adservio Academy ?

Formations 100% pratiques
Formateurs experts certifiés
Accompagnement personnalisé
Contenu Ă  jour avec l'IA