NLP
Le traitement naturel du langage est un domaine à part entière de l’intelligence artificielle à l’intersection de l’informatique, des mathématiques, de la linguistique et des sciences cognitives. L’objectif est de construire des applications capables d’analyser, de modéliser, de comprendre et d’imiter le langage humain.
Les transformers introduits en 2017 et intégrant des capacités d’attention ont révolutionné ce domaine en offrant une nouvelle méthode pour la compréhension du langage naturel.
D’une part, nous pouvons désormais réutiliser de nombreux modèles pré-entrainés extrêmement performants et d’autre part, ils ont contribué à l’IA générative permettant de générer du contenu original à partir de données existantes.
Vous connaissez d’ores et déjà les principes fondamentaux de l’apprentissage automatique et vous avez déjà mis en oeuvre différentes architectures de réseaux de neurones, mais vous souhaitez en savoir plus sur les opportunités proposées par le Machine et le Deep Learning dans le domaine du traitement naturel du langage, cette formation est faite pour vous.
Vous serez capables de pré-traiter des données textuelles et vous serez en mesure d’implémenter des modèles permettant de les valoriser en TensorFlow ou PyTorch : classification de texte, recherche d’informations, analyse de sentiments, extraction d’informations, traduction, résumé de texte, etc…
- +15ans d'expérience pour tous nos formateurs
- 4jours
À qui s’adresse cette formation "NLP" ?
Description de la formation "NLP"
-
Méthodes pédagogiques
- La formation se passe en mode présentiel ou distanciel, et se compose de 70% de travaux pratiques (Mises en situation, débats, exercices). Le formateur alterne entre théorie et pratique ; chaque participant dispose d'un ordinateur avec un accès direct à une Machine Virtuelle préparée par nos soins, sur lequel il réalisera les exercices proposés.
- Une évaluation quotidienne de l'acquisition des connaissances de la veille est effectuée.
- Une synthèse est proposée en fin de formation. Une évaluation à chaud sera réalisée par le stagiaire à la fin du cours.
- Un support de cours (version électronique) sera remis à chaque participant comprenant les slides sur la théorie, les exercices.
-
Présentation
Le traitement naturel du langage est un domaine à part entière de l’intelligence artificielle à l’intersection de l’informatique, des mathématiques, de la linguistique et des sciences cognitives. L’objectif est de construire des applications capables d’analyser, de modéliser, de comprendre et d’imiter le langage humain.
Les transformers introduits en 2017 et intégrant des capacités d’attention ont révolutionné ce domaine en offrant une nouvelle méthode pour la compréhension du langage naturel.
D’une part, nous pouvons désormais réutiliser de nombreux modèles pré-entrainés extrêmement performants et d’autre part, ils ont contribué à l’IA générative permettant de générer du contenu original à partir de données existantes.
Vous connaissez d’ores et déjà les principes fondamentaux de l’apprentissage automatique et vous avez déjà mis en oeuvre différentes architectures de réseaux de neurones, mais vous souhaitez en savoir plus sur les opportunités proposées par le Machine et le Deep Learning dans le domaine du traitement naturel du langage, cette formation est faite pour vous.
Vous serez capables de pré-traiter des données textuelles et vous serez en mesure d’implémenter des modèles permettant de les valoriser en TensorFlow ou PyTorch : classification de texte, recherche d’informations, analyse de sentiments, extraction d’informations, traduction, résumé de texte, etc…
-
Objectifs
- Mettre en place un prétraitement efficace d’un jeu de données textuelles
- Maîtriser les architectures de réseaux de neurones récurrents et des transformers
- Comprendre les bases théoriques et pratiques des LLM
- Réutiliser des modèles existants avec du transfer learning
- Comprendre le principe du RAG
- Mesurer la pertinence des modèles mis en œuvre
- Mettre en œuvre des cas concrets pour chaque architecture/solution
-
Audience
- Data Analysts
- Data Scientists
- Développeurs
-
Formateur
Le formateur est un expert du domaine qui intervient sur le sujet depuis plusieurs années en formation mais aussi en conseil.
Doté d’une grande qualité d’écoute, sa pédagogie et sa compétence technique vous permettront d’acquérir les compétences sur le sujet.
Il saura alterner entre théorie, pratique, et retours d’expérience.
-
Prérequis
- Les stagiaires doivent avoir une expérience en Deep Learning ou avoir suivi la formation « Maitriser le Deep Learning »
- Il est aussi nécessaire de maîtriser des concepts du Machine Learning et d'avoir mis en œuvre différentes architectures de réseaux de neurones : convolutionnels, récurrents, …)
- La connaissance du langage Python, des librairies scientifiques (scikit-learn, pandas, numpy) et du framework Deep Learning TensorFlow ou PyTorch est nécessaire.
- Afin de valider les compétences et les prérequis de chaque participant, en amont de la formation, le formateur organise un entretien téléphonique. Il confirme alors que le participant a le niveau nécessaire et que le contenu répond bien à ses attentes.
-
Programme
Introduction
- Les bases de la linguistique
- Introduction au Text Mining / Fouille de texte (Data Mining pour le texte)
- Extraction d’informations
- Recherche d’informations
- Catégorisation du texte
- Résumé du texte
Text Normalisation / Normalisation du texte
- n-grams
- Tokenization
- Stop Word
- Stemming
- Part-Of-Speech (POS) tagging
- Lemmatization
Vectorisation du texte
- Analyse de la fréquence des termes (Counter, TF-IDF, Word vectors)
- Bag of word
- Word Embedding : Word2vec, GloVe, FastText, etc.
- Création d’une pipeline de préprocessing
Les réseaux de neurones récurrents
- Principes fondamentaux des RNN
- LSTM et GRU
- Approches Encodeur-Decodeur
- Utilisation de connexions résiduelles (skip connections)
L’architecture transformers
- Seq2Seq
- Attention is All You Need
- Architecture des transformers
- Mécanisme d’attention
- Tokens & Embeddings
Les LLM
- Les familles de modèles : encoder, decoder & encoder-decoder
- Panorama de quelques modèles
- Méthodes d’apprentissage et d’optimisation
- Closed model APIs vs OpenModel weights vs Fully open model
- Coût et empreinte écologique des LLM
- Des LLM vers les SLM
HuggingFace & Keras Hub
- HuggingFace et ses pipelines
- Keras Hub et Kaggle
RAG – Retrieval-Augmented Generation
- Fondements de Retrieval-Augmented Generation
- Les bases vectorielles
- Premiers pas avec LangChain
- Du RAG avancé vers L’Agentic AI
-
Tarif
Nous consulter