ChatGPT & la chambre chinoise : les limites des modèles de langage

Les modèles de langage ont fait des progrès significatifs ces dernières années, en générant des réponses sophistiquées qui imitent le langage humain. Tout le monde ou presque s’est amusé à discuter avec ChatGPT et en a été époustouflé… jusqu’à se rendre compte qu’il racontait parfois n’importe quoi. Avec ChatGPT, on a vraiment l’impression de discuter avec une personne à la fois savante et mythomane.

Nous allons essayer d’expliquer simplement, et à l’aide d’une analogie avec une célèbre expérience de pensée philosophique, pourquoi il en est ainsi.

Comment fonctionne ChatGPT ?

ChatGPT est un chatbot qui utilise le modèle de langage GPT (Generative Pre-trained Transformer), un type de modèle d’apprentissage en profondeur (deep learning) qui utilise une architecture de Transformer (basée sur des réseaux de neurones) et développé par OpenAI.

Comment fonctionne GPT ?

GPT convertit d’abord le texte d’entrée en une séquence de « tokens », qui peuvent être considérés comme des unités discrètes de signification (mots ou partie de mots). C’est ce qu’on appelle la tokenisation, dont le but est de transformer le texte brut en un format plus facile à traiter par un modèle d’apprentissage automatique. En découpant le texte en unités distinctes, le modèle peut comprendre plus facilement les relations entre les mots et les phrases dans le texte. Prenons par exemple la phrase « Portez ce vieux whisky au juge blond qui fume. » Une tokenisation simple pourrait diviser cette phrase en mots individuels, ce qui donnerait une séquence de tokens telle que [« Portez », « ce », « vieux », « whisky », « au », « juge », « blond », « qui », « fume », « . »].

Une fois que le texte a été tokenisé, chaque token doit être représenté par un vecteur numérique que le modèle d’apprentissage automatique peut utiliser. C’est là que l’embedding entre en jeu.

Un embedding est une représentation vectorielle d’un token qui capture son sens dans le texte. Les embeddings sont généralement appris par le modèle lors de l’entraînement. L’idée clé derrière les embeddings est que les tokens similaires doivent être représentés par des vecteurs similaires. Par exemple, les mots « chien » et « chiot » sont similaires en sens et doivent donc avoir des embeddings similaires.

comment fonctionne chatGPT

Illustrations d’embeddings. A gauche, une représentation en 2D et à droite une représentation en 3D. Les termes proches sémantiquement apparaissent groupés. De plus, le déplacement pour passer de “homme” à “femme” est similaire à celui pour passer de “roi” à “reine”, ce qui montre que la différence entre chaque terme est similaire.

Grâce à l’architecture Transformer utilisée par GPT, l’embedding va être dynamique. Cela signifie qu’un même mot ayant plusieurs sens différents, aura différents vecteurs. Ces vecteurs seront contextualisés en fonction des autres mots et phrases du texte.

comment fonctionne chatGPT

Le mot « apple » en anglais peut référer à une pomme ou à la marque. Le mot « bank » peut se référer à une banque ou une rive. Avec l’architecture Transformer, le vecteur pour représenter ces mots sera différent en fonction du contexte dans lesquels ils se trouvent.

Après la phase de tokenisation, le modèle va être entrainé via un processus appelé apprentissage auto-supervisé, où il apprend à prédire le prochain mot dans une séquence de texte, étant donné tous les mots précédents : GPT est présenté avec une séquence d’entrée de tokens et est invité à prédire le token suivant dans la séquence. Les paramètres du modèle sont mis à jour en fonction de la différence entre le token prédit et le token suivant réel dans la séquence. En faisant cela des millions de fois sur un corpus de textes très large, GPT apprend à modéliser la distribution de probabilité des mots et des phrases dans la langue, ce qui lui permet de générer des réponses cohérentes et plausibles à l’entrée de texte.

Pourquoi je vous explique tout ce charabia ? Parce que je veux que vous compreniez que GPT fonctionne en utilisant l’apprentissage non supervisé (c’est-à-dire qu’il apprend tout seul) pour créer des modèles statistiques. Il crée des relations mathématiques entre les signifiants (les ensemble de caractères formant des mots) mais n’a aucune connaissance des signifiés (les concepts derrière chaque mot). En gros : ChatGPT ne comprend rien de ce qu’il dit.

Petit aparte : vous imaginez bien que si on entraine GPT sur les dires de Maitre Gims, le modèle calculera une proximité entre Egypte, pyramide et électricité, et vous obtiendrez des réponses complètement fausses d’un point de vue scientifique et historique.

La Chambre Chinoise de Searle

On peut faire une analogie avec l’expérience de pensée de la Chambre Chinoise proposée en 1980 par le philosophe John Searle. Ce dernier a utilisé cette expérience pour contester l’idée de l’IA forte (autrement appelée AGI en anglais) qui suggère qu’une machine peut véritablement comprendre le langage et avoir une conscience.

L’expérience se déroule comme suit : imaginez que vous êtes dans une pièce et que vous ne parlez ni ne comprenez le chinois. Vous recevez des caractères chinois écrits qui vous sont transmis par une fente dans le mur. Vous avez à votre disposition un livre d’instructions qui vous indique quels caractères chinois utiliser pour répondre à ceux reçus. Le livre d’instructions est si détaillé que vous pouvez produire une réponse à n’importe quel caractère chinois que vous recevez.

Maintenant, imaginez que quelqu’un à l’extérieur de la pièce commence à vous passer des messages écrits en caractères chinois à travers la fente dans le mur. À l’aide du livre d’instructions, vous êtes capable de produire des réponses aux messages qui vous sont transmis. Les réponses sont si convaincantes que la personne de l’autre côté du mur croit communiquer avec quelqu’un qui comprend le chinois.

comment fonctionne chatGPT
la chambre chinoise de Searle

Cependant, vous, la personne dans la pièce, ne comprenez pas du tout le chinois. Vous suivez simplement les instructions du livre pour produire les réponses correctes. C’est là le cœur de l’argument de Searle : tout comme vous dans la chambre chinoise, un programme informatique peut manipuler des symboles de manière à produire l’apparence de compréhension, mais il ne comprend rien en réalité.

Searle soutient que la compréhension du langage nécessite plus que la simple capacité à manipuler des symboles (des signifiants) selon un ensemble de règles. Elle nécessite une véritable compréhension des concepts (les signifiés) derrière les symboles, et une expérience subjective, ce dont ne disposent pas les machines.

Que ce soit ChatGPT ou la Chambre Chinoise, dans les deux cas les systèmes manipulent des signifiants (les mots, les caractères) avec des règles (statistiques dans le cas de GPT), et ce sans comprendre les signifiés (les concepts). Même si ChatGPT et d’autres modèles de langage ont fait des progrès significatifs dans la génération de réponses sophistiquées, ils leur manquent toujours la capacité de comprendre réellement le sens des mots qu’ils utilisent.

Maintenant, vous savez que ChatGPT n’est pas si intelligent que ça, et j’espère que vous garderez cela à l’esprit quand vous l’utiliserez : il faut toujours vérifier les réponses qu’il vous fournit !

8 réponses à “ChatGPT & la chambre chinoise : les limites des modèles de langage”

  1. Avatar de carole fontaine

    j’ai bien peur que Chat GPT servent les manipulateurs de très haut vol (au sens propre comme au figuré) et que cette soi-disant avancée technologique contribue fortement à supprimer du travail, et surtout….., surtout à appauvrir notre esprit et de fait notre Liberté. En fait Chat GPT me donne le sentiment d’être une machine à asservir qui plait aux sociétés « démocratiques » comme aux autocratiques,…..!
    Merci Marie pour cette écriture simple

    1. Avatar de Marie Langé

      Il y a effectivement de gros risques avec cette technologie. Les hackers s’en servent déjà pour perfectionner les e-mails de hameçonnage…
      Mais je pense qu’il va aussi d’aider pleins de métiers à se concentrer sur la partie intéressante du boulot, en délégant aux machines le reste.

  2. Avatar de Pilouche
    Pilouche

    Très clair! L’INTELLIGENCE ARTIFICIELLE est tout sauf intelligente, ce n’est qu’un perroquet amélioré (Très).

    1. Avatar de Marie Langé

      Je dirais plutôt que le perroquet est plus intelligent que l’IA car je pense que le perroquet sait associer certains mots à des concepts. Comme les chiens qui comprennent très bien quand on leur dit qu’on va se promener ou faire à manager. Les IA sont incapables de ça.

  3. Avatar de Jerome Fortias

    Trés clair et intelligent. Je partage sur LinkedIn et je like
    Le blog que vous utilisez c’est blogger. Si oui ou avez vous trouvé le thème ? Je l’adore

    1. Avatar de Marie Langé

      Merci Jérôme !
      On utilise WordPress avec le thème suivant : https://wordpress.org/themes/twentytwentytwo/
      Si besoin, je peux aider à créer un blog wordpress 😉

  4. Avatar de jeumeuleu
    jeumeuleu

    Bon article, et un choix très judicieux de photo pour illustrer le sens fluvial de « bank ».
    Sûr, l’incapacité des IA à comprendre ce dont elles parlent est patente, mais c’est déjà un exploit d’apprendre à très bien parler (j’aime bien la comparaison pilouchienne avec le perroquet, d’une certaine façon, le bagout des IA génératives est comparable à la langue de bois des politiciens: du blabla un peu vide de sens, mais très bien formulé).
    Cela dit, il y a bcp de R&D pour que les IA acquièrent du « bon sens », etc. Ce ne sera pas uniquement à base de corpus de langue (des chercheurs à IBM génèrent des vidéos de baballes rebondissant dans une pièce encombrée pour entraîner les IA à mieux fonctionner dans le monde physique, éviter des obstacles, etc).
    Bref, je pense qu’on n’est pas au bout de nos surprises. Mais on cause, on cause… c’est une discussion qu’on pourrait avantageusement poursuivre autour d’une bonne boutanche sur les « banks » de la photo susmentionnée (d’ailleurs, qqun qui parle couramment une langue sans en comprendre le sens, n’est-ce pas déjà un con fluent ?).

    1. Avatar de Marie Langé

      Merci Jean-Marc ! Tu as l’oeil, je suis même pas sûre que Pilouche ait reconnu la photo.
      Il est indéniable que ces IA génératives sont très complexes et ont nécéssité énormément d’intelligence humaine. Mon point dans cet article n’était pas de dénigrer le travail fait, mais plutôt de faire comprendre que ces outils ne sont pas capables de raisonner. Je trouve les messages envoyés au grand public très difficiles à comprendre et même souvent erronnés : de plus en plus de média parlent d’AGI par exemple… Or, il me semble essentiel que tout le monde comprenne que ces outils restent « idiots » dans un certain sens et que nous devons toujours garder un esprit critique quand on les utilise. Et surtout ne pas les voir comme des « oracles ».

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

%d blogueurs aiment cette page :