Data Analytics Foundations
Data Analytics Foundations
Module 1 - Data et rôle du Data Analyst : Définitions et représentations des données, types de variables (catégorielles, numériques, ordinales), formats de fichiers (CSV, JSON, Excel, bases de données), rôles data (analyst, engineer, scientist avec différences clés), écosystème de données dans l'entreprise, utilisation de LLMs pour stakeholder analysis. Module 2 - Spreadsheets pour Analytics : Google Sheets et Excel pour analyses, organisation et filtrage de données, types de données et validation, formules basiques et avancées, tableaux croisés dynamiques (pivot tables) pour agrégations et analyses multidimensionnelles. Module 3 - Data Visualization : Principes de data storytelling, types de visualisations (bar charts, scatter plots, line charts), sélection du bon type de visualisation selon le message, couleurs, légendes et annotations efficaces, visualisations trompeuses à éviter. Module 4 - Data Analytics Lifecycle : Problem definition et cadrage, data collection et sources, preprocessing et cleaning, analysis et exploration, interpretation et insights, evaluation et itération, Rumsfeld Matrix (known knowns, unknown unknowns) pour structurer la réflexion analytique.
Applied Statistics for Data Analytics
Applied Statistics for Data Analytics
Module 1 - Foundational Statistical Techniques : Population vs échantillons, techniques de sampling et biais, mesures de tendance centrale (mean, median, mode), variabilité et dispersion (variance, standard deviation, IQR), skewness et kurtosis pour comprendre la forme des distributions, histogrammes et box plots pour visualisation, analyses group-by et agrégations, utilisation de GenAI pour debugging statistique. Module 2 - Probability and Simulation : Règles de probabilité de base, événements indépendants et conditionnels, distributions discrètes et continues, distribution normale et ses propriétés fondamentales, z-scores et standardisation, simulations Monte Carlo pour modélisation de scénarios complexes, applications pratiques en analyse de risques. Module 3 - Confidence Intervals : Estimation et inference statistique, confidence intervals pour moyennes avec interprétation rigoureuse, confidence intervals pour proportions, interprétation correcte des CI (ce qu'ils signifient vraiment), utilisation de LLMs pour valider les tests statistiques. Module 4 - Hypothesis Testing : Tests d'hypothèses (null et alternative), t-tests et z-tests pour comparaisons de moyennes, Type I et Type II errors (alpha, beta) et leur impact, p-values et significance statistique, tests pour variables uniques et multiples, utilisation de LLMs pour sélection de tests appropriés selon le contexte analytique.
Python for Data Analytics
Python for Data Analytics
Module 1 - Getting Started with Python : Fondamentaux de programmation, variables et types de données Python, lists, tuples et dictionaries pour structurer les données, functions et modules pour code réutilisable, loops (for, while) et conditionals (if/else) pour logique de contrôle, debugging et error handling pour résolution de problèmes. Module 2 - Data Structures et Descriptive Stats : Pandas DataFrames et Series comme structures fondamentales, vectorization pour performance optimale, reading CSV et autres formats (Excel, JSON), filtering, sorting et indexing avancé, statistiques descriptives (mean, median, std, quantiles), corrélations et relations entre variables, groupby et agrégations pour analyses multidimensionnelles, pivot tables avec Pandas pour synthèses croisées. Module 3 - Visualization avec Python : Matplotlib pour graphiques de base, Seaborn pour visualisations statistiques élégantes, distribution plots (histograms, KDE) pour explorer les données, categorical plots (bar, box, violin) pour comparer groupes, heatmaps pour corrélations matricielles, customization et styling pour visualisations professionnelles. Module 4 - Inferential Statistics : Confidence intervals avec SciPy, t-tests avec SciPy (one-sample, two-sample) pour comparaisons, simple linear regression pour relations bivariées, multiple linear regression pour modèles multivariés, model evaluation (R², MAE, RMSE, residuals analysis), interpretation des coefficients de régression. Module 5 - Time Series Analysis : DateTime objects et manipulation temporelle, moving averages et smoothing pour tendances, percent change et growth rates, resampling (upsampling, downsampling) pour granularités différentes, time series forecasting basique, trend, seasonality et decomposition pour comprendre les patterns temporels.
Data I/O and Preprocessing with Python and SQL
Data I/O and Preprocessing with Python and SQL
Module 1 - Web Scraping & Text Processing : ETL vs ELT concepts et choix architecturaux, data cleaning techniques pour données réelles, web scraping avec Pandas pour extraction de tables, string methods et manipulation avancée, Beautiful Soup pour HTML parsing et extraction de contenu structuré, regular expressions (regex) pour pattern matching puissant, ethical web scraping et respect de robots.txt. Module 2 - APIs et Data Collection : JSON structure et parsing pour données API, API requests avec Python (requests library), query parameters et headers HTTP, pagination et rate limiting pour extraction complète, API keys et environment variables pour sécurité, numerical cleaning (scaling, binning, normalization) pour préparation, outliers detection et handling stratégique. Module 3 - Databases et SQL Basics : DBMS (Database Management Systems) et architecture relationnelle, tidy data principles pour structuration propre, data models et schemas relationnels, SQL de base (SELECT, FROM, ORDER BY) pour requêtes fondamentales, SQL dans Python (sqlite3, sqlalchemy) pour intégration, connexions à bases de données et gestion de sessions. Module 4 - Preprocessing et Joins avec SQL : Filtering avec WHERE et CASE statements pour logique conditionnelle, NULL handling (IS NULL, COALESCE) pour données manquantes, data validation (COUNT, DISTINCT) pour vérification qualité, GROUP BY et agrégations pour synthèses analytiques, HAVING clause pour filtrer agrégats, JOINs (LEFT, INNER, RIGHT, OUTER) pour combiner tables, subqueries et CTEs (Common Table Expressions) pour requêtes complexes modulaires.