Module 1
Introduction au Multimodal RAG
Introduction au Multimodal RAG
15min
Leçons vidéo
Exercices
Lab pratique
Qu'est-ce que le multimodal ?
Use cases : e-commerce, documentation technique, médical
Limites du RAG text-only
Architecture multimodale overview
Lab : Exploration dataset multimodal
Module 2
Embeddings Multimodaux
Embeddings Multimodaux
25min
Leçons vidéo
Exercices
Lab pratique
Modèles CLIP (OpenAI)
BridgeTower embeddings
Comment encoder texte et images dans même espace
Similarity search cross-modal
Lab : Générer embeddings pour texte et images
Module 3
Vector Databases pour Multimodal
Vector Databases pour Multimodal
20min
Leçons vidéo
Exercices
Lab pratique
Weaviate multimodal support
Indexation d'images et texte
Schema configuration
Storage et retrieval optimization
Lab : Setup Weaviate multimodal collection
Module 4
Recherche Sémantique sur Images
Recherche Sémantique sur Images
25min
Leçons vidéo
Exercices
Lab pratique
Image-to-image search
Text-to-image search
Image-to-text search
Hybrid queries (texte + image)
Ranking et filtering
Lab : Application de recherche visuelle
Module 5
RAG avec Contexte Visuel
RAG avec Contexte Visuel
30min
Leçons vidéo
Exercices
Lab pratique
Retrieval de documents avec images
Combiner texte et visuels dans le contexte
Vision LLMs (GPT-4V, Claude 3) pour RAG
Describing images dans les réponses
Structurer le contexte multimodal
Lab : RAG Q&A avec images et texte
Module 6
Production et Use Cases
Production et Use Cases
15min
Leçons vidéo
Exercices
Lab pratique
Applications e-commerce (recherche produits)
Documentation technique (diagrammes + texte)
Médical imaging RAG
Fashion et retail
Performance optimization
Lab : Projet multimodal complet