Le traitement du langage naturel est au coeur des applications IA les plus repandues : chatbots, traduction automatique, analyse de sentiments, detection de spam. Cette formation vous apprend a mettre en oeuvre les techniques NLP avec Python et NLTK, de la tokenisation a la classification de texte, pour construire des solutions concretement deployables dans vos projets.
Public visé
Toute personne intéressée par le NLP : ingénieurs, analystes, Data Scientists, Data Analysts, développeurs.
Prérequis
Avoir suivi cette formation, ou en maîtriser les thèmes abordés :
Objectifs pédagogiques
À l’issue de cette formation, vous serez capable de :
- Reconnaître les principes du NLP
- Mettre en œuvre les techniques NLP avec Python
- Utiliser NLTK pour le traitement de texte
- Implémenter l’analyse de sentiments
Programme
Introduction au NLP
- Comprendre le langage humain, et savoir générer des réponses en respectant les différentes étapes
- Reconnaissance de caractères, ou de la voix
- Conversion des données en texte
- Décomposition en éléments de phrase
- Nettoyage des données
- Traitement de l’ambiguïté d’un mot
- Reconnaissance d’une entité nommée (NEM)
- Traitement des multiples références pour une entité
- Extraction des informations subjectives…
- Les outils de NLP et historique
- Outils statistiques, de Machine Learning, de Deep Learning
- Watson NLU
- Python
- Le NLTK
- Applications actuelles
- Solutions de détection de spam
- Traduction automatique
- Assistants virtuels
- Chatbots
- Analyses d’opinions, de sentiments…
Python et le NLTK
- Introduction
- Plate-formes supportées
- Versions de Python
- Présentation des textes et modèles fournis avec le NLTK
Travaux pratiques
- Installation du package NLTK et des Datasets
Traitement de textes
- Etude des différentes fonctions fournies par le NLTK
- Découpage d’un texte en mots ou en phrases avec
nltk.tokenize() - Nettoyage de textes avec le filtrage de mots
- Stemming avec
nltk.stem - Alertes sur les risques d’un mauvais usage
- Etiquetage des différentes parties d’un texte avec
nltk.pos-tag() - Lemmatisation, pour identifier les formes canoniques des mots
- Identification de phrases avec le chunking
- Découpage d’un texte en mots ou en phrases avec
Travaux pratiques
- Réalisation d’exemples sur des Datasets simples
Analyses de textes
- Description de
nltk.ne_chunk()pour la reconnaissance d’identités nommées - Présentation des fonctions
concordance() Dispersion_plot()FreqDist
Travaux pratiques
- Import de corpus de textes, analyse, mise en évidence de l’utilisation de termes caractéristiques
Etude de cas
- Analyse de sentiments avec
nltk.sentiment - Présentation des fonctions disponibles
Travaux pratiques
- Mise en oeuvre sur un corpus
- Utilisation de
polarity.scores()
Intégration de scikit-learn
- Import des algorithmes de classification de scikit-learn
Travaux pratiques
- Exemple d’utilisation des algorithmes de scikit-learn depuis nltk
Modalités d’évaluation des acquis
En cours de formation, par des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.
Voir aussi
Vous serez peut-être intéressés par les formations suivantes :
Formation EAI-NLP-100 — IA - Traitement du Langage Naturel (NLP). Domaine : Intelligence Artificielle. Niveau : Initiation. Durée : 2 jours (14 heures). Mots-clés : nlp, machine-learning, intelligence-artificielle, initiation, python, nltk. Cylian Formation, Dijon.