La reussite d’un projet IA depend directement de la qualite de l’architecture de donnees sous-jacente. Cette formation couvre les architectures de reference – Data Warehouse, Data Lake, Lakehouse, Data Mesh – et leur mise en oeuvre sur les principales plateformes Cloud (AWS, Azure, GCP, Databricks, Snowflake), pour vous permettre de concevoir une plateforme de donnees unifiee et performante au service du ML.
Public visé
Architectes Data, développeurs, Data Scientists, Data Analysts, ingénieurs Data, chefs de projets, IA Product Managers, consultants BI/Big Data.
Objectifs pédagogiques
À l’issue de cette formation, vous serez capable de :
- Concevoir une plateforme Cloud-native ou hybride pour ML/IA
- Consolider les actifs Data dans une plateforme unique
- Démocratiser l’accès aux données en mode self-service
- Automatiser la prise de décision via pipelines de streaming
- Intégrer des fonctionnalités prédictives et prescriptives à la BI
Programme
Jour 1 - Matin
Fondamentaux des Architectures Data
- Qu’est-ce que le Machine Learning et l’IA ?
- Similarités et différences entre l’IA et le développement d’applications traditionnelles
- Importance des pipelines Data dans la minimisation du Time-to-Value des produits Data
- Rappel des principes de DataOps
- Importance de l’architecture Data dans l’implémentation d’une stratégie DataOps
- De la BI (Business Intelligence) au Big Data aux Analytiques Métier
- Architectures Lambda et Kappa
- Evolution des plateformes architecturales d’analytiques unifiées : Data Warehouse vs Data Lake vs Lakehouse vs Data Mesh
Concevoir une Plateforme d’Analytiques Moderne
- Cycle de vie de la Data
- Gouvernance et sécurité
- Offres logiciels libres en local (On Premise) : DVC, Python SDK, MLflow, Airflow, Spark, dbt (tiers gratuit vs tiers payant), Delta Lake, Iceberg, Hudi
- Offres Cloud classiques (Azure, AWS, GCP) et offres multi-Cloud (Databricks, Snowflake, Fivetran, dbt)
- Avantages et inconvénients des offres locales et des offres Cloud
- Moderniser les workflows Data
Travaux pratiques
- Démonstration d’outils libres
- Prise en main de Databricks
Jour 1 - Après-midi
Architecture d’un Data Warehouse Moderne
- Spécificités d’un Data Warehouse
- Variantes architecturales d’un Data Warehouse moderne
- Etapes d’un projet de Data Warehouse moderne
- Data Warehouse On-Premise vs sur le Cloud : solutions technologiques et avantages / inconvénients
- Intégration du Data Warehouse au SI
- Gouvernance du Data Warehouse
- Le Data Warehouse au service des Data Scientists
Travaux pratiques
- Déploiement d’un Data Warehouse sur le Cloud et exécution d’analytiques
Jour 2 - Matin
Développer la Data Team
- Définir les besoins clés de l’organisation
- Les DADO (data-Analytics Driven Organizations)
- Les DEDO (data-Engineering Driven Organizations)
- Les DSDO (data-Science Driven Organizations)
Frameworks de Migration
- La migration en quatre étapes :
- Prepare / discover
- Assess / plan
- Execute
- Optimize
- Estimation des coûts :
- Audit de l’existant
- Devis
- PoC
- MVP
- Mettre en place la sécurité et la gouvernance
- Schéma, pipeline, migration des données
Travaux pratiques
- Études de cas de conception de plateformes analytiques, mettant en oeuvre les principes abordés
Jour 2 - Après-midi
Architecture d’un Data Lake
- Spécificités d’un Data Lake
- Etapes d’un projet de Data Lake
- Data Lake On-Premise vs sur le Cloud : solutions technologiques et avantages / inconvénients
- Intégration du Data Lake au SI (Système d’Information)
- Zonage et gouvernance du Data Lake
- Le Data Lake en self-service
- Importance du catalogue de données
- Le Data Lake au service des Data Scientists
Travaux pratiques
- Déploiement d’un Data Lake sur le Cloud et exécution d’analytics
Jour 3 - Matin
Architecture d’un Lakehouse
- Spécificités d’un Data Lakehouse : le meilleur de deux mondes
- Découplage stockage / calcul, propriétés ACID, upserts, Time Travel, dérive de schéma, compaction des fichiers, Z-Ordering, VACUUM
- Variantes architecturales d’un Lakehouse
- Etapes d’un projet de Data Lakehouse
- Offres de Lakehouses sur le Cloud
- Intégration du Lakehouse au SI
- Gouvernance du Lakehouse
- Le Lakehouse au service des Data Scientists
Travaux pratiques
- Déploiement d’un Lakehouse sur le Cloud et exécution d’analytiques BI
Jour 3 - Après-midi
Architectures de Streaming
- L’intérêt du streaming
- Streaming ingest (ETL, ELT, Insert, IoT, Sink)
- Tableaux de bord en temps réel, live querying
- Analytiques de traitement de flux de données
- Apprentissage d’un modèle sur des données en streaming
Travaux pratiques
- Réalisation d’analytiques sur un flux de données
Perspectives
- La Data Intelligence, l’IA Générative qui :
- Gère la gouvernance
- Enrichit le catalogue de données
- Permet des requêtes en langage naturel (AI/BI)
- Optimise l’indexation et les requêtes
Travaux pratiques
- Démonstration avec Databricks Data Intelligence Platform
Modalités d’évaluation des acquis
En cours de formation, par des études de cas ou des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.
Voir aussi
Vous serez peut-être intéressés par les formations suivantes :
- AWS - Developing Generative AI Applications
- IA et architecture Cloud applicative
- Déployer une IA open source en local
Formation EAI-DATAARCH-100 — Architectures de données pour le ML et l’IA. Domaine : Intelligence Artificielle. Niveau : Initiation. Durée : 3 jours (21 heures). Mots-clés : intelligence-artificielle, data-architecture, machine-learning, big-data, cloud, lakehouse. Cylian Formation, Dijon.