Le Machine Learning transforme la prise de décision dans tous les secteurs. Cette formation vous apprend à utiliser Scikit-learn pour construire des modèles de régression, classification et clustering sur des données réelles. Vous aborderez aussi le A/B testing et les méthodes avancées comme les forêts aléatoires et les réseaux de neurones, avec des applications concrètes en analyse de données et recommandation.

Public visé

Développeurs, Data Analysts, Data Scientists.

Prérequis

Avoir suivi cette formation, ou en maîtriser les thèmes abordés :

Python - Initiation

Objectifs pédagogiques

À l’issue de cette formation, vous serez capable de :

Utiliser Scikit-learn pour créer des modèles ML
Concevoir des expériences A/B testing
Visualiser clustering et régression avec Matplotlib
Appliquer les bonnes pratiques de préparation des données

Programme

Jour 1 - Matin

Introduction à la Data Science

situer la Data Science dans l’écosystème
- définition et périmètre
- différence avec la statistique classique
- champs d’application
- outils et algorithmes usuels
distinguer les méthodes de Machine Learning
- apprentissage supervisé
- apprentissage non supervisé
- apprentissage par renforcement

Le langage de programmation Python - Bases

rappeler les fondamentaux Python
- structures, propriétés, fonctions spéciales
- programmation orientée objet
- bibliothèque standard

Jour 1 - Après-midi

Le langage de programmation Python - Avancé

approfondir Python
- notions avancées
- bonnes pratiques de développement
manipuler les librairies scientifiques — NumPy, SciPy, Pandas, Matplotlib

Préparation de données pour la Data Science

comprendre l’enjeu de la préparation des données
exécuter les étapes clés
- nettoyage
- transformation et normalisation
- compréhension des données

Jour 2 - Matin

Travaux pratiques :

Maîtriser les techniques d’apprentissage automatique avec Scikit-learn
- extraction de caractéristiques et prétraitement
- réduction de la dimensionnalité avec l’Analyse des Composants Principaux (PCA)
- analyse de régression — linéaire, multi-linéaire, polynomiale, logistique et régularisation

Jour 2 - Après-midi

Travaux pratiques :

Maîtriser les techniques d’apprentissage automatique avec Scikit-learn (suite)
- classification supervisée
- classification non supervisée et régression avec arbres de décision
- K-means clustering
- Perceptron et Support Vector Machines (SVM)
- réseaux de neurones artificiels

Jour 3 - Matin

Travaux pratiques :

Maîtriser les techniques d’apprentissage automatique avec MLlib d’Apache Spark
- analyse en composantes principales
- analyse de régression
- K-means clustering
- train / test et validation croisée
- méthodes bayésiennes
- arbres de décision et forêts aléatoires
- régression multivariée
- modèles multi-niveaux
- Support Vector Machines (SVM)
- apprentissage par renforcement
- filtrage collaboratif
- K plus proche voisin
- compromis biais / variance
- apprentissage d’ensemble
- TF-IDF (Fréquence de Terme / Fréquence Inverse de Documents)
- conception expérimentale et A/B testing

Jour 3 - Après-midi

Cas d’usage particuliers de Data Science

appliquer les algorithmes de classification
- classification des itinéraires — matrices origines / destinations temporelles
- détection de mode de transport via jeux de données images
implémenter des algorithmes de recommandation
- filtrage collaboratif — contenu, éléments, utilisateur, hybride
- clustering pour les recommandations
- Deep Learning pour les recommandations

Modalités d’évaluation des acquis

En cours de formation, par des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.

Voir aussi

Vous serez peut-être intéressés par les formations suivantes :

Formation DEV-PYTHON-320 — Data Science avec Python (Scikit-learn). Domaine : Développement. Niveau : Avancé. Durée : 3 jours (21 heures). Mots-clés : python, data-science, scikit-learn, machine-learning, matplotlib. Cylian Formation, Dijon.