La reussite d’un projet IA depend directement de la qualite de l’architecture de donnees sous-jacente. Cette formation couvre les architectures de reference – Data Warehouse, Data Lake, Lakehouse, Data Mesh – et leur mise en oeuvre sur les principales plateformes Cloud (AWS, Azure, GCP, Databricks, Snowflake), pour vous permettre de concevoir une plateforme de donnees unifiee et performante au service du ML.

Public visé

Architectes Data, développeurs, Data Scientists, Data Analysts, ingénieurs Data, chefs de projets, IA Product Managers, consultants BI/Big Data.

Objectifs pédagogiques

À l’issue de cette formation, vous serez capable de :

Concevoir une plateforme Cloud-native ou hybride pour ML/IA
Consolider les actifs Data dans une plateforme unique
Démocratiser l’accès aux données en mode self-service
Automatiser la prise de décision via pipelines de streaming
Intégrer des fonctionnalités prédictives et prescriptives à la BI

Programme

Jour 1 - Matin

Fondamentaux des Architectures Data

Qu’est-ce que le Machine Learning et l’IA ?
Similarités et différences entre l’IA et le développement d’applications traditionnelles
Importance des pipelines Data dans la minimisation du Time-to-Value des produits Data
Rappel des principes de DataOps
Importance de l’architecture Data dans l’implémentation d’une stratégie DataOps
De la BI (Business Intelligence) au Big Data aux Analytiques Métier
Architectures Lambda et Kappa
Evolution des plateformes architecturales d’analytiques unifiées : Data Warehouse vs Data Lake vs Lakehouse vs Data Mesh

Concevoir une Plateforme d’Analytiques Moderne

Cycle de vie de la Data
Gouvernance et sécurité
Offres logiciels libres en local (On Premise) : DVC, Python SDK, MLflow, Airflow, Spark, dbt (tiers gratuit vs tiers payant), Delta Lake, Iceberg, Hudi
Offres Cloud classiques (Azure, AWS, GCP) et offres multi-Cloud (Databricks, Snowflake, Fivetran, dbt)
Avantages et inconvénients des offres locales et des offres Cloud
Moderniser les workflows Data

Travaux pratiques :

Démonstration d’outils libres
Prise en main de Databricks

Jour 1 - Après-midi

Architecture d’un Data Warehouse Moderne

Spécificités d’un Data Warehouse
Variantes architecturales d’un Data Warehouse moderne
Etapes d’un projet de Data Warehouse moderne
Data Warehouse On-Premise vs sur le Cloud : solutions technologiques et avantages / inconvénients
Intégration du Data Warehouse au SI
Gouvernance du Data Warehouse
Le Data Warehouse au service des Data Scientists

Travaux pratiques :

Déploiement d’un Data Warehouse sur le Cloud et exécution d’analytiques

Jour 2 - Matin

Développer la Data Team

Définir les besoins clés de l’organisation
Les DADO (data-Analytics Driven Organizations)
Les DEDO (data-Engineering Driven Organizations)
Les DSDO (data-Science Driven Organizations)

Frameworks de Migration

La migration en quatre étapes :
- Prepare / discover
- Assess / plan
- Execute
- Optimize
Estimation des coûts :
- Audit de l’existant
- Devis
- PoC
- MVP
Mettre en place la sécurité et la gouvernance
Schéma, pipeline, migration des données

Travaux pratiques :

Études de cas de conception de plateformes analytiques, mettant en oeuvre les principes abordés

Jour 2 - Après-midi

Architecture d’un Data Lake

Spécificités d’un Data Lake
Etapes d’un projet de Data Lake
Data Lake On-Premise vs sur le Cloud : solutions technologiques et avantages / inconvénients
Intégration du Data Lake au SI (Système d’Information)
Zonage et gouvernance du Data Lake
Le Data Lake en self-service
Importance du catalogue de données
Le Data Lake au service des Data Scientists

Travaux pratiques :

Déploiement d’un Data Lake sur le Cloud et exécution d’analytics

Jour 3 - Matin

Architecture d’un Lakehouse

Spécificités d’un Data Lakehouse : le meilleur de deux mondes
Découplage stockage / calcul, propriétés ACID, upserts, Time Travel, dérive de schéma, compaction des fichiers, Z-Ordering, VACUUM
Variantes architecturales d’un Lakehouse
Etapes d’un projet de Data Lakehouse
Offres de Lakehouses sur le Cloud
Intégration du Lakehouse au SI
Gouvernance du Lakehouse
Le Lakehouse au service des Data Scientists

Travaux pratiques :

Déploiement d’un Lakehouse sur le Cloud et exécution d’analytiques BI

Jour 3 - Après-midi

Architectures de Streaming

L’intérêt du streaming
Streaming ingest (ETL, ELT, Insert, IoT, Sink)
Tableaux de bord en temps réel, live querying
Analytiques de traitement de flux de données
Apprentissage d’un modèle sur des données en streaming

Travaux pratiques :

Réalisation d’analytiques sur un flux de données

Perspectives

La Data Intelligence, l’IA Générative qui :
- Gère la gouvernance
- Enrichit le catalogue de données
- Permet des requêtes en langage naturel (AI/BI)
- Optimise l’indexation et les requêtes

Travaux pratiques :

Démonstration avec Databricks Data Intelligence Platform

Modalités d’évaluation des acquis

En cours de formation, par des études de cas ou des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.

Voir aussi

Vous serez peut-être intéressés par les formations suivantes :

Formation EAI-DATAARCH-100 — Architectures de données pour le ML et l’IA. Domaine : Intelligence Artificielle. Niveau : Initiation. Durée : 3 jours (21 heures). Mots-clés : intelligence-artificielle, data-architecture, machine-learning, big-data, cloud, lakehouse. Cylian Formation, Dijon.