Retour
CoursDébutantArchitecture & DesignGenAI Builders

Prompt Engineering pour Modèles Multimodaux

Famille : F2 - GenAI Builders

Express

À l'issue de cette formation, vous serez capable de :

Maîtriser les concepts fondamentaux
Acquérir des compétences pratiques

Programme Détaillé

6 modules de formation

Module 1

Introduction

3 min
Leçons vidéo
Exercices
Lab pratique
Vue d'ensemble du prompt engineering pour la vision.
Modèles classiques : entraînement supervisé spécifique
Foundation models : apprentissage généralisé
Prompt-based models : adaptation flexible sans fine-tuning
Points et boîtes englobantes
Masques et contours
Descriptions textuelles
Images de référence
Module 2

Détection d'Objets Zero-Shot

12 min avec code
Leçons vidéo
Exercices
Lab pratique
Détecter des objets sans entraînement spécifique.
Encoder images et texte dans le même espace
Sliding window pour localisation
Prompts textuels : "a photo of a {class}"
Non-Maximum Suppression (NMS)
Lab pratique : Détecteur zero-shot multi-classes
Consultez la documentation Azure pour l'implémentation détaillée de cette fonctionnalité.
Module 3

Segment Anything Model

SAM) (15 min avec code
Leçons vidéo
Exercices
Lab pratique
Utiliser SAM avec différents types de prompts visuels.
Points foreground (sur l'objet)
Points background (hors de l'objet)
Multimask output pour ambiguïté
Lab pratique : Segmentation interactive
Plus rapide que points multiples
Meilleur pour objets rectangulaires
Lab pratique : Segmentation par boîte
Raffiner une segmentation
Itérer pour améliorer la précision
Tous les objets d'une image
Aucun prompt nécessaire
Utilise SamAutomaticMaskGenerator
Module 4

Few-Shot Visual Learning

10 min avec code
Leçons vidéo
Exercices
Lab pratique
Apprendre de quelques exemples visuels.
3-5 exemples par classe suffisent
Utilisation de CLIP pour embeddings
Moyenne des embeddings de support
Classification par similarité cosinus
Lab pratique : Classifier animaux avec 3 exemples
Combiner points positifs et négatifs
Ajouter une boîte englobante
Utiliser plusieurs types de prompts simultanément
Module 5

Manipulation Guidée par Texte

10 min avec code
Leçons vidéo
Exercices
Lab pratique
Manipuler des images en utilisant des descriptions textuelles.
InstructPix2Pix et modèles similaires
Instructions : "turn the sky into sunset"
Contrôle de guidance scale
Lab pratique : Éditer paysages avec texte
Requêtes compositionnelles complexes
"a red car on a rainy street at night"
Recherche dans base d'images
Tri par similarité
Module 6

Best Practices et Applications

8 min
Leçons vidéo
Exercices
Lab pratique
Meilleures pratiques pour le prompt engineering visuel.
Placer sur les régions les plus distinctives
Utiliser points négatifs pour désambiguïser
3-5 points généralement suffisants
Préférer pour objets avec forme claire
Plus rapide que points multiples
Meilleur pour objets rectangulaires
Être spécifique et descriptif
Inclure contexte visuel
Combiner attributs multiples
Annotation assistée
Recherche de produits e-commerce
Inspection qualité manufacturing
Édition de contenu créatif

Prérequis pour suivre cette formation

Développeurs avec connaissances Python intermédiaires
Python intermédiaire
Bases de computer vision (optionnel mais utile)
PyTorch ou TensorFlow basique
Familiarité avec Hugging Face (recommandé)
Ordinateur avec Python 3.8+
GPU recommandé (fourni dans les labs)
Compte Hugging Face (gratuit)

Public Cible

Développeurs
Ingénieurs logiciels

Compétences que vous allez acquérir

Compétences pratiques en IA générative

Ressources

Informations Pratiques

Détails de la formation

Durée
1h
Niveau
Débutant
Prix
2230 €
Langue
Français
Certification
-

Pourquoi choisir Adservio Academy ?

Formations 100% pratiques
Formateurs experts certifiés
Accompagnement personnalisé
Contenu à jour avec l'IA