Les modèles de langage ont fait des progrès significatifs ces dernières années, en générant des réponses sophistiquées qui imitent le langage humain. Tout le monde ou presque s’est amusé à discuter avec ChatGPT et en a été époustouflé… jusqu’à se rendre compte qu’il racontait parfois n’importe quoi. Avec ChatGPT, on a vraiment l’impression de discuter avec une personne à la fois savante et mythomane.
Nous allons essayer d’expliquer simplement, et à l’aide d’une analogie avec une célèbre expérience de pensée philosophique, pourquoi il en est ainsi.
Comment fonctionne ChatGPT ?
ChatGPT est un chatbot qui utilise le modèle de langage GPT (Generative Pre-trained Transformer), un type de modèle d’apprentissage en profondeur (deep learning) qui utilise une architecture de Transformer (basée sur des réseaux de neurones) et développé par OpenAI.
Comment fonctionne GPT ?
GPT convertit d’abord le texte d’entrée en une séquence de « tokens », qui peuvent être considérés comme des unités discrètes de signification (mots ou partie de mots). C’est ce qu’on appelle la tokenisation, dont le but est de transformer le texte brut en un format plus facile à traiter par un modèle d’apprentissage automatique. En découpant le texte en unités distinctes, le modèle peut comprendre plus facilement les relations entre les mots et les phrases dans le texte. Prenons par exemple la phrase « Portez ce vieux whisky au juge blond qui fume. » Une tokenisation simple pourrait diviser cette phrase en mots individuels, ce qui donnerait une séquence de tokens telle que [« Portez », « ce », « vieux », « whisky », « au », « juge », « blond », « qui », « fume », « . »].
Une fois que le texte a été tokenisé, chaque token doit être représenté par un vecteur numérique que le modèle d’apprentissage automatique peut utiliser. C’est là que l’embedding entre en jeu.
Un embedding est une représentation vectorielle d’un token qui capture son sens dans le texte. Les embeddings sont généralement appris par le modèle lors de l’entraînement. L’idée clé derrière les embeddings est que les tokens similaires doivent être représentés par des vecteurs similaires. Par exemple, les mots « chien » et « chiot » sont similaires en sens et doivent donc avoir des embeddings similaires.
Illustrations d’embeddings. A gauche, une représentation en 2D et à droite une représentation en 3D. Les termes proches sémantiquement apparaissent groupés. De plus, le déplacement pour passer de “homme” à “femme” est similaire à celui pour passer de “roi” à “reine”, ce qui montre que la différence entre chaque terme est similaire.
Grâce à l’architecture Transformer utilisée par GPT, l’embedding va être dynamique. Cela signifie qu’un même mot ayant plusieurs sens différents, aura différents vecteurs. Ces vecteurs seront contextualisés en fonction des autres mots et phrases du texte.
Le mot « apple » en anglais peut référer à une pomme ou à la marque. Le mot « bank » peut se référer à une banque ou une rive. Avec l’architecture Transformer, le vecteur pour représenter ces mots sera différent en fonction du contexte dans lesquels ils se trouvent.
Après la phase de tokenisation, le modèle va être entrainé via un processus appelé apprentissage auto-supervisé, où il apprend à prédire le prochain mot dans une séquence de texte, étant donné tous les mots précédents : GPT est présenté avec une séquence d’entrée de tokens et est invité à prédire le token suivant dans la séquence. Les paramètres du modèle sont mis à jour en fonction de la différence entre le token prédit et le token suivant réel dans la séquence. En faisant cela des millions de fois sur un corpus de textes très large, GPT apprend à modéliser la distribution de probabilité des mots et des phrases dans la langue, ce qui lui permet de générer des réponses cohérentes et plausibles à l’entrée de texte.
Pourquoi je vous explique tout ce charabia ? Parce que je veux que vous compreniez que GPT fonctionne en utilisant l’apprentissage non supervisé (c’est-à-dire qu’il apprend tout seul) pour créer des modèles statistiques. Il crée des relations mathématiques entre les signifiants (les ensemble de caractères formant des mots) mais n’a aucune connaissance des signifiés (les concepts derrière chaque mot). En gros : ChatGPT ne comprend rien de ce qu’il dit.
Petit aparte : vous imaginez bien que si on entraine GPT sur les dires de Maitre Gims, le modèle calculera une proximité entre Egypte, pyramide et électricité, et vous obtiendrez des réponses complètement fausses d’un point de vue scientifique et historique.
La Chambre Chinoise de Searle
On peut faire une analogie avec l’expérience de pensée de la Chambre Chinoise proposée en 1980 par le philosophe John Searle. Ce dernier a utilisé cette expérience pour contester l’idée de l’IA forte (autrement appelée AGI en anglais) qui suggère qu’une machine peut véritablement comprendre le langage et avoir une conscience.
L’expérience se déroule comme suit : imaginez que vous êtes dans une pièce et que vous ne parlez ni ne comprenez le chinois. Vous recevez des caractères chinois écrits qui vous sont transmis par une fente dans le mur. Vous avez à votre disposition un livre d’instructions qui vous indique quels caractères chinois utiliser pour répondre à ceux reçus. Le livre d’instructions est si détaillé que vous pouvez produire une réponse à n’importe quel caractère chinois que vous recevez.
Maintenant, imaginez que quelqu’un à l’extérieur de la pièce commence à vous passer des messages écrits en caractères chinois à travers la fente dans le mur. À l’aide du livre d’instructions, vous êtes capable de produire des réponses aux messages qui vous sont transmis. Les réponses sont si convaincantes que la personne de l’autre côté du mur croit communiquer avec quelqu’un qui comprend le chinois.
Cependant, vous, la personne dans la pièce, ne comprenez pas du tout le chinois. Vous suivez simplement les instructions du livre pour produire les réponses correctes. C’est là le cœur de l’argument de Searle : tout comme vous dans la chambre chinoise, un programme informatique peut manipuler des symboles de manière à produire l’apparence de compréhension, mais il ne comprend rien en réalité.
Searle soutient que la compréhension du langage nécessite plus que la simple capacité à manipuler des symboles (des signifiants) selon un ensemble de règles. Elle nécessite une véritable compréhension des concepts (les signifiés) derrière les symboles, et une expérience subjective, ce dont ne disposent pas les machines.
Que ce soit ChatGPT ou la Chambre Chinoise, dans les deux cas les systèmes manipulent des signifiants (les mots, les caractères) avec des règles (statistiques dans le cas de GPT), et ce sans comprendre les signifiés (les concepts). Même si ChatGPT et d’autres modèles de langage ont fait des progrès significatifs dans la génération de réponses sophistiquées, ils leur manquent toujours la capacité de comprendre réellement le sens des mots qu’ils utilisent.
Maintenant, vous savez que ChatGPT n’est pas si intelligent que ça, et j’espère que vous garderez cela à l’esprit quand vous l’utiliserez : il faut toujours vérifier les réponses qu’il vous fournit !
Laisser un commentaire