Le traitement du langage naturel est au coeur des applications IA les plus repandues : chatbots, traduction automatique, analyse de sentiments, detection de spam. Cette formation vous apprend a mettre en oeuvre les techniques NLP avec Python et NLTK, de la tokenisation a la classification de texte, pour construire des solutions concretement deployables dans vos projets.

Public visé

Toute personne intéressée par le NLP : ingénieurs, analystes, Data Scientists, Data Analysts, développeurs.

Prérequis

Avoir suivi cette formation, ou en maîtriser les thèmes abordés :

Apprentissage

Objectifs pédagogiques

À l’issue de cette formation, vous serez capable de :

Reconnaître les principes du NLP
Mettre en œuvre les techniques NLP avec Python
Utiliser NLTK pour le traitement de texte
Implémenter l’analyse de sentiments

Programme

Introduction au NLP

Comprendre le langage humain, et savoir générer des réponses en respectant les différentes étapes
- Reconnaissance de caractères, ou de la voix
- Conversion des données en texte
- Décomposition en éléments de phrase
- Nettoyage des données
- Traitement de l’ambiguïté d’un mot
- Reconnaissance d’une entité nommée (NEM)
- Traitement des multiples références pour une entité
- Extraction des informations subjectives…
Les outils de NLP et historique
- Outils statistiques, de Machine Learning, de Deep Learning
- Watson NLU
- Python
- Le NLTK
Applications actuelles
- Solutions de détection de spam
- Traduction automatique
- Assistants virtuels
- Chatbots
- Analyses d’opinions, de sentiments…

Python et le NLTK

Introduction
- Plate-formes supportées
- Versions de Python
Présentation des textes et modèles fournis avec le NLTK

Travaux pratiques :

Installation du package NLTK et des Datasets

Traitement de textes

Etude des différentes fonctions fournies par le NLTK
- Découpage d’un texte en mots ou en phrases avec nltk.tokenize()
- Nettoyage de textes avec le filtrage de mots
- Stemming avec nltk.stem
- Alertes sur les risques d’un mauvais usage
- Etiquetage des différentes parties d’un texte avec nltk.pos-tag()
- Lemmatisation, pour identifier les formes canoniques des mots
- Identification de phrases avec le chunking

Travaux pratiques :

Réalisation d’exemples sur des Datasets simples

Analyses de textes

Description de nltk.ne_chunk() pour la reconnaissance d’identités nommées
Présentation des fonctions concordance()
Dispersion_plot()
FreqDist

Travaux pratiques :

Import de corpus de textes, analyse, mise en évidence de l’utilisation de termes caractéristiques

Etude de cas

Analyse de sentiments avec nltk.sentiment
Présentation des fonctions disponibles

Travaux pratiques :

Mise en oeuvre sur un corpus
Utilisation de polarity.scores()

Intégration de scikit-learn

Import des algorithmes de classification de scikit-learn

Travaux pratiques :

Exemple d’utilisation des algorithmes de scikit-learn depuis nltk

Modalités d’évaluation des acquis

En cours de formation, par des travaux pratiques. En fin de formation, par un questionnaire d’auto-évaluation.

Voir aussi

Vous serez peut-être intéressés par les formations suivantes :

Formation EAI-NLP-100 — IA - Traitement du Langage Naturel (NLP). Domaine : Intelligence Artificielle. Niveau : Initiation. Durée : 2 jours (14 heures). Mots-clés : nlp, machine-learning, intelligence-artificielle, initiation, python, nltk. Cylian Formation, Dijon.