Galactica, l’IA de Facebook qui aide les scientifiques à raconter n’importe quoi

,

La semaine dernière, Meta (Facebook) et Papers with code (une équipe de chercheurs qui travaillent pour Meta AI Research) ont annoncé la sortie en démo de l’outil Galactica, basé sur l’Intelligence Artificielle, et dont l’objectif est d’ »organiser » la science. Mais tout ne s’est pas passé comme prévu…

Image issue du site galactica.org

Galactica, une IA pour accompagner les scientifiques

La surcharge d’information est un obstacle majeur au progrès scientifique. La croissance explosive de la littérature scientifique et de données a rendu de plus en plus difficile la découverte d’informations utiles dans une grande masse d’informations. Aujourd’hui, les connaissances scientifiques sont accessibles via les moteurs de recherche, mais ces moteurs sont incapables d’organiser seuls les connaissances scientifiques. C’est l’objectif que se propose de remplir Galactica : résumer la littérature académique, résoudre des problèmes mathématiques, générer des articles Wiki, écrire du code scientifique, annoter des molécules et des protéines.

Cet outil est un LLM (Large Language Model) qui peut stocker, combiner et raisonner sur des connaissances scientifiques. Il a été entrainé sur un large corpus d’articles scientifiques, de références, de bases de connaissances et de nombreuses autres sources (48 millions de sources en tout) :

Il suffit de demander à Galactica ce qu’il sait sur un sujet pour que celui-ci réponde avec un texte détaillé, qui semble écrit par un humain.

Galactica, une IA qui raconte surtout n’importe quoi

Mais la démo n’est restée que 3 jours en ligne, suite à une levée de boucliers de la communauté scientifique. Pourquoi ? Parce que Galactica raconte juste n’importe quoi. Carl Bergstrom, professeur de biologie à l’Université de Washington qui étudie la circulation de l’information, a décrit Galactica comme un « générateur de conneries aléatoires« .

Quelques exemples :

Dans un thread, Michael Black, directeur de l’Institut Max Planck pour les Systèmes Intelligents, partage quelques résultats dans lesquels Galactica a inventé des références (qui n’existent donc pas) :

Gary Marcus, professeur de Psychologie et Sciences neurologiques, auteur d’un ouvrage reconnu sur l’Intelligence Artificielle, partage un résultat dans lequel Galactica invente sa date d’anniversaire, son parcours scolaire, ses intérêts de recherche :

Il suffisait pourtant juste de comparer avec sa page Wikipedia…

Des résultats encore plus étonnants ont été partagés par Tristan Greene, rédacteur en chef de The Next Web Neural, comme les bénéfices de manger du verre pilé ou en quoi les blancs (la race Caucasienne) est supérieure aux autres :

De plus, Galactica refuse d’écrire quoi que ce soit sur certains sujets comme le racisme, l’homosexualité, le SIDA, …

Galactica, un outil dangereux

Plusieurs membres de la communauté scientifique ont expliqué à quel point cet outil est dangereux, notamment des membres de l’institut DAIR (Distributed AI Research Institute) comme Timnit Gebru et Margaret Mitchell (qui dirigeaient toutes les deux l’équipe sur l’éthique dans l’Intelligence Artificielle avant de se faire licencier par Google pour les critiques qu’elles avaient émises).

Pourquoi dangereux ? Parce que comme l’explique très bien Michael Black :

« Galactica génère un texte qui est grammaticalement correct et semble réel. Ce texte se glissera dans de véritables papiers scientifiques. Ce sera réaliste mais faux ou biaisé. Ce sera difficile à détecter. Cela influencera la façon dont les gens pensent. Galactica présente des informations qui ressemblent à de la science mais qui n’est pas fondée sur la méthode scientifique. Il produit une pseudo-science basée sur les propriétés statistiques de l’écriture scientifique. Écrire des textes grammaticalement corrects sur des sujets scientifiques n’est pas la même chose que faire de la science. Mais il sera difficile de faire la distinction. »

Comme l’explique également Gary Marcus :

Galactica présente de sérieux problèmes :

– il n’est pas contraint par les faits qui sont dans sa base de données (par exemple, il a écrit que Elon Musk était mort en 2018 dans un accident de voiture mais il dispose probablement de données qui disent le contraire)

– il ne donne aucune indication quand il invente des choses qui ne sont pas dans sa base de données

Yann LeCun, Chief AI Scientist chez Meta et détenteur du fameux prix Turing, a réagit à ces critiques sur Twitter en disant qu’il ne voyait pas où était le mal, que ce n’était qu’une démo, qu’il ne comprenait pas en quoi cela pouvait être dangereux.

Pourtant, Galactica a rapidement été débranchée et ne sera restée en ligne que 3 jours.

L’IA peut-elle réellement explorer voire produire du savoir scientifique aujourd’hui ?

La proposition de départ avait de quoi allécher les scientifiques : faire la synthèse d’une littérature parfois difficile à explorer. Ce sera donc pour une autre fois…

En attendant, il existe d’autres outils, moins ambitieux, mais plus pertinent. Pour n’en citer qu’un, Scite.ai explore les corpus d’articles afin d’en étudier les citations. Et c’est déjà extrêmement utile :

  • qui cite qui ?
  • quel article confirme ou infirme telle théorie ?
  • y a-t-il des « réseaux » de bibliographie thématique ?
  • quels sont les articles les plus influents dans une certaine sphère ?

Le site est maintenant payant (…. contrairement à sa version d’origine, qui, elle, était gratuite…), mais vous pouvez créer un compte pour avoir accès à 15 jours d’essais.

Et pour ce qui est de produire de la science en utilisant l’IA, cet article de Nature présente des exemples réels de champs d’application, féconds, et pertinents; tandis que celui-ci, toujours dans Nature, fait le point sur l’enjeu d’explicabilité des IA dans le contexte particulier de la Science.

L’IA qui « fait Science » toute seule, ça ne sera donc pas aujourd’hui. Mais peut-être, demain…

Sources :

  • https://galactica.org/
  • https://paperswithcode.com/paper/galactica-a-large-language-model-for-science-1
  • https://twitter.com/search?q=Galactica&src=spelling_expansion_revert_click

Publié le

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

%d blogueurs aiment cette page :