Module 1
Introduction
Introduction
3 min
Leçons vidéo
Exercices
Lab pratique
Vue d'ensemble du prompt engineering pour la vision.
Modèles classiques : entraînement supervisé spécifique
Foundation models : apprentissage généralisé
Prompt-based models : adaptation flexible sans fine-tuning
Points et boîtes englobantes
Masques et contours
Descriptions textuelles
Images de référence
Module 2
Détection d'Objets Zero-Shot
Détection d'Objets Zero-Shot
12 min avec code
Leçons vidéo
Exercices
Lab pratique
Détecter des objets sans entraînement spécifique.
Encoder images et texte dans le même espace
Sliding window pour localisation
Prompts textuels : "a photo of a {class}"
Non-Maximum Suppression (NMS)
Lab pratique : Détecteur zero-shot multi-classes
Consultez la documentation Azure pour l'implémentation détaillée de cette fonctionnalité.
Module 3
Segment Anything Model
Segment Anything Model
SAM) (15 min avec code
Leçons vidéo
Exercices
Lab pratique
Utiliser SAM avec différents types de prompts visuels.
Points foreground (sur l'objet)
Points background (hors de l'objet)
Multimask output pour ambiguïté
Lab pratique : Segmentation interactive
Plus rapide que points multiples
Meilleur pour objets rectangulaires
Lab pratique : Segmentation par boîte
Raffiner une segmentation
Itérer pour améliorer la précision
Tous les objets d'une image
Aucun prompt nécessaire
Utilise SamAutomaticMaskGenerator
Module 4
Few-Shot Visual Learning
Few-Shot Visual Learning
10 min avec code
Leçons vidéo
Exercices
Lab pratique
Apprendre de quelques exemples visuels.
3-5 exemples par classe suffisent
Utilisation de CLIP pour embeddings
Moyenne des embeddings de support
Classification par similarité cosinus
Lab pratique : Classifier animaux avec 3 exemples
Combiner points positifs et négatifs
Ajouter une boîte englobante
Utiliser plusieurs types de prompts simultanément
Module 5
Manipulation Guidée par Texte
Manipulation Guidée par Texte
10 min avec code
Leçons vidéo
Exercices
Lab pratique
Manipuler des images en utilisant des descriptions textuelles.
InstructPix2Pix et modèles similaires
Instructions : "turn the sky into sunset"
Contrôle de guidance scale
Lab pratique : Éditer paysages avec texte
Requêtes compositionnelles complexes
"a red car on a rainy street at night"
Recherche dans base d'images
Tri par similarité
Module 6
Best Practices et Applications
Best Practices et Applications
8 min
Leçons vidéo
Exercices
Lab pratique
Meilleures pratiques pour le prompt engineering visuel.
Placer sur les régions les plus distinctives
Utiliser points négatifs pour désambiguïser
3-5 points généralement suffisants
Préférer pour objets avec forme claire
Plus rapide que points multiples
Meilleur pour objets rectangulaires
Être spécifique et descriptif
Inclure contexte visuel
Combiner attributs multiples
Annotation assistée
Recherche de produits e-commerce
Inspection qualité manufacturing
Édition de contenu créatif