L’arrivée de ChatGPT 3.5 en novembre 2022, et la fascination immédiate suscitée par l’agent conversationnel auprès de ses premiers utilisateurs, ont permis à OpenAI de bénéficier d’un bouche-à-oreille sans précédent, établissant un record historique en matière de rapidité d’adoption.
« Toute technologie suffisamment avancée est indiscernable de la magie », écrivait Arthur C. Clarke dans Profiles of the Future : An Inquiry into the Limits of the Possible. Et force est de constater que l’auteur de 2001 : L’odyssée de l’espace avait vu juste : les réactions des internautes n’ont pas lésiné sur l’usage du champ lexical de la magie et de l’émerveillement.
Ces expériences fascinantes ont ainsi largement contribué à la popularisation des modèles massifs de langage auprès du grand public, si bien que nos comportements sont d’ores et déjà influencés par les réponses de Chat GPT, Claude, Meta AI ou encore Le Chat. Mais alors que cette technologie prend de plus en plus d’importance dans notre vie quotidienne, il convient de se demander ce qu’est un modèle de langage massif afin de démystifier ce rapport “magique” à cette technologie et de mieux cerner les capacités et applications potentielles de cette dernière.
Anatomie d’un LLM
Une expérience de pensée proposée par le mathématicien français Emile Borel en 1913 nous invite à considérer qu’un singe frappant sur une machine à écrire pourrait, avec un temps infini, produire du texte qui fait sens, voire retranscrire une oeuvre complète, par hasard. Plus d’un siècle plus tard, c’est à une machine que nous demandons désormais de générer du texte qui a du sens, mais cette fois-ci, nous ne laissons plus de place au hasard.
Les large language models, ou modèles massifs de langage en français, sont des modèles d’intelligence artificielle générative dont l’objectif est de produire du signifiant. Pour ce faire, notre “singe” mécanique génère des jetons (des unités de textes, souvent des morceaux de mots) de manière itérative, en évaluant à chaque étape les probabilités de tous les jetons possibles en fonction du contexte produit auparavant.
Ces modèles sont donc :
- Auto-régressifs : les modèles génèrent une jeton à la fois, ils ne connaissent donc pas la fin de leurs phrases (un peu comme Michael Scott).
- Pré-entrainés : les modèles sont entraînés sur une vaste base de données langagière, ce qui leur permet d’estimer les probabilités de chaque jeton. Cela signifie également que les LLMs ont une date de coupure : ils n’ont aucune connaissance des événements postérieurs à cette date, à moins qu’on ne les leur fournisse explicitement.
- Probabilistes : grâce à son entraînement, le modèle est en mesure d’évaluer la probabilité du prochain jeton à générer afin de produire celui qui est le plus pertinent d’un point de vue statistique.
- Contextuels : les modèle évaluent les probabilités en fonction du contexte immédiat. Par exemple, les jetons formant le mot “lait” ont une probabilité plus importante après “le chat boit” qu’après “la salamandre boit…”
Ces quelques caractéristiques inhérentes aux modèles massifs de langage nous permet déjà d’entrevoir une réponse à la question que beaucoup se posent : à quoi sert cette technologie?
Capacités intrinsèques
Ayant dévoilé comment fonctionne les LLMs, nous sommes en mesure de dégager cinq grandes catégories de tâches pour lesquelles ils sont particulièrement performants :
1. Le résumé
capacité de résumer un texte ou un corpus de textes en écrits plus courts ou points clés.
2. La classification
capacité de classifier des mots ou des textes en fonction d’un contexte donné.
3. La rédaction
capacité de générer des textes cohérents en fonction du corpus utilisé pour entraîner l’IA .
4. Le renseignement
capacité de répondre aux questions de l’utilisateur.
5. La traduction
capacité de traduire des textes d’une langue à une autre.
Force est toutefois de constater que les capacités des modèles de langage massifs tels que Chat GPT, Le Chat ou Gemini vont bien au-delà de ces quelques tâches.
Les outils à disposition des LLMs
En donnant accès aux modèles massifs de langage une série d’outils, ces derniers sont en mesure d’étendre leur capacités et d’apporter encore plus de valeur à leurs utilisateurs.
1. Retrieval Augmented Generation (RAG)
Permet au modèle d’aller puiser des informations dans des bases de données ou documents externes mis à sa disposition afin de générer des réponses plus précises et vérifiables.
Cas d’usage : assistant base de connaissance (support client), navigateur de procédures, moteur de recherche entreprise
2. Recherche Web
Connecte le modèle à Internet pour accéder à des informations actualisées en temps réel. Cela permet au LLM d’aller au delà de sa date de coupure.
Cas d’usage : génération de rapports complexes (deep search)
3. Vision
Permet au LLM d’interpréter et de générer images et vidéos. Certains modèles sont ainsi en mesure d’interpréter un flux vidéo en direct issue d’une camera ou d’une capture d’écran.
Cas d’usage : contrôle qualité, analyse d’imagerie médicale, recherche par image, assistance technique à distance, contenu marketing
4. Parole
Permet la reconnaissance et synthèse vocale.
Cas d’usage : support client par téléphone, prise de note automatisée, contenu marketing
5. Integrations
Connecte le modèle à des outils SaaS à travers des APIs ou serveurs MCP afin d’automatiser des tâches. Ce type de connexion permet la création de cas d’usage complexe, de type agentic, où le modèle choisi le(s) outil(s) à convoquer pour une requête donnée.
Cas d’usage : préparation de rendez-vous client (intégration CRM), classification automatique des tickets (intégration outil de support), assistant email (intégration email)

Laisser un commentaire