Yoann Betton

Logo



Data Science Engineer, Polytechnique Montréal / Université de Technologie de Compiègne

Interested in Sports, Motorsport, Sailing races, Science, Data, Technology, Engineering

View my Certified Microsoft Profile
PL-300 | DP-600 | DP-700

View my Curriculum Vitæ

View my LinkedIn profile

View my GitHub profile

For any information, feel free to send me an email.

2026 - Strava Data Analytics Pipeline (Microsoft Fabric)


📋 Présentation du Projet

Ce POC (Proof of Concept) met en place une plateforme de données moderne pour analyser la préparation sportive (Trail/Vélotaf). L’objectif est d’automatiser l’extraction des données de l’API Strava vers un environnement Microsoft Fabric en suivant l’architecture Medallion, tout en intégrant une couche d’optimisation FinOps pour opérer sur une capacité minimale (F2).

Le projet permet un suivi précis de la charge d’entraînement (VAM, dénivelé) et une gestion prédictive de l’usure du matériel via une approche BI conversationnelle.


🏗️ Architecture des Données

Le projet utilise une architecture Medallion pour garantir la qualité, la traçabilité et l’évolutivité des données.

1. Couche Bronze (Raw)

2. Couche Silver (Staging)

3. Couche Gold (Curated - Star Schema)


⚖️ Expertise FinOps & Automatisation Azure

Pour optimiser les coûts sur une capacité F2, une stratégie d’automatisation avancée a été mise en place :


⚙️ Orchestration & Performance


💎 Stratégie de Restitution & BI Conversationnelle

1. Modèle Sémantique (SSOT)

Le modèle sémantique sert de Single Source of Truth. Les mesures DAX sont centralisées pour assurer la cohérence des KPIs.

2. BI Conversationnelle (Data Agent)

3. Dashboards Analytiques


📂 Structure des Notebooks

ID Nom Couche Description
01 nb_strava_01_bronze Bronze Gestion OAuth2, extraction activités et snapshots JSON.
02 nb_strava_02_silver_activities Silver Nettoyage et typage du flux d’activités sportives.
02 nb_strava_02_silver_gears Silver Unification des snapshots et historisation SCD Type 2.
03 nb_strava_03_gold_activities Gold Calculs métiers (VAM), SportCategory et préparation Power BI.
04 nb_strava_04_gold_dim_calendar Gold Génération du calendrier avec patterns ISO et clés de tri.
05 nb_runbook_control DevOps (PowerShell) Script de management de la capacité Azure.

📈 Business Logic & KPIs

VAM (Vitesse Ascensionnelle Moyenne)

\(VAM = \frac{\text{Elevation Gain (m)}}{\text{Moving Time (h)}}\)

Sport Category Mapping (Spark SQL)

df_with_categories = df_silver.withColumn(
    "SportCategory",
    F.when(F.col("SportType").isin("Run", "TrailRun"), "Running")
     .when(F.col("SportType").isin("Ride", "EBikeRide", "VirtualRide"), "Cycling")
     .otherwise("Others")
)

🚀 Installation et Configuration

  1. Azure Automation : Configurer le Runbook PowerShell et l’identité managée pour piloter la ressource Fabric.
  2. API Strava : Configurer les credentials sur le portail développeur (Client ID, Secret, Refresh Token).
  3. Fabric Lakehouse : Importer les notebooks et configurer le Starter Pool en “Small”.
  4. Modélisation : Créer le modèle sémantique en Direct Lake pour bénéficier de la performance native sans latence de rafraîchissement.
  5. Data Agent : Activer l’agent sur le modèle sémantique et configurer les instructions de navigation (jointures et synonymes).

Auteur : Yoann BETTON - All Rights Reserved
Projet : POC Fabric Analytics & FinOps - 2026


2025 - WEC Data Analysis Tool project


© 2026 Yoann Betton