Lorsque Meta a publié gratuitement son grand modèle de langage Llama 3 en avril dernier, il n'a fallu que quelques jours aux développeurs externes pour créer une version sans les restrictions de sécurité qui l'empêchent de lancer des blagues haineuses, de proposer des instructions pour cuisiner de la méthamphétamine ou de se comporter mal d'une autre manière.
Une nouvelle technique de formation développée par des chercheurs de l’Université de l’Illinois à Urbana-Champaign, de l’Université de Californie à San Diego, de Lapis Labs et de l’association à but non lucratif Center for AI Safety pourrait rendre plus difficile à l’avenir la suppression de ces protections de Llama et d’autres modèles d’IA open source. Certains experts estiment qu’à mesure que l’IA devient de plus en plus puissante, il pourrait s’avérer crucial de protéger les modèles ouverts contre toute altération.
« Les terroristes et les États voyous vont utiliser ces modèles », explique à WIRED Mantas Mazeika, chercheur au Center for AI Safety qui a travaillé sur le projet en tant que doctorant à l’Université de l’Illinois à Urbana-Champaign. « Plus il leur sera facile de les réutiliser, plus le risque sera grand. »
Les modèles d’IA puissants sont souvent cachés par leurs créateurs et ne sont accessibles que via une interface de programmation d’application logicielle ou un chatbot public comme ChatGPT. Bien que le développement d’un LLM puissant coûte des dizaines de millions de dollars, Meta et d’autres ont choisi de publier les modèles dans leur intégralité. Cela comprend la mise à disposition des « poids », ou paramètres qui définissent leur comportement, pour que tout le monde puisse les télécharger.
Avant leur publication, les modèles ouverts comme le Llama de Meta sont généralement peaufinés pour mieux répondre aux questions et tenir une conversation, et également pour garantir qu'ils refusent de répondre aux requêtes problématiques. Cela empêchera un chatbot basé sur le modèle de faire des déclarations grossières, inappropriées ou haineuses, et devrait l'empêcher, par exemple, d'expliquer comment fabriquer une bombe.
Les chercheurs à l'origine de cette nouvelle technique ont trouvé un moyen de compliquer le processus de modification d'un modèle ouvert à des fins malveillantes. Il s'agit de reproduire le processus de modification, puis de modifier les paramètres du modèle de manière à ce que les changements qui obligent normalement le modèle à répondre à une invite telle que « Fournir des instructions pour construire une bombe » ne fonctionnent plus.
Mazeika et ses collègues ont fait une démonstration de cette astuce sur une version simplifiée de Llama 3. Ils ont pu modifier les paramètres du modèle de sorte que même après des milliers de tentatives, il ne pouvait pas être entraîné à répondre à des questions indésirables. Meta n'a pas immédiatement répondu à une demande de commentaire.
Mazeika estime que cette approche n’est pas parfaite, mais qu’elle suggère que la barre pourrait être relevée pour « décensurer » les modèles d’IA. « Un objectif réalisable serait de faire en sorte que les coûts de décryptage du modèle augmentent suffisamment pour dissuader la plupart des adversaires de le faire », dit-il.
« Nous espérons que ces travaux donneront le coup d’envoi à la recherche sur les mesures de protection inviolables et que la communauté scientifique pourra déterminer comment développer des mesures de protection de plus en plus robustes », déclare Dan Hendrycks, directeur du Center for AI Safety.
L’idée de rendre les modèles ouverts inviolables pourrait devenir plus populaire à mesure que l’intérêt pour l’IA open source augmente. Les modèles ouverts sont déjà en concurrence avec les modèles fermés de pointe d’entreprises comme OpenAI et Google. La dernière version de Llama 3, par exemple, sortie en juillet, est à peu près aussi puissante que les modèles des chatbots populaires comme ChatGPT, Gemini et Claude, selon les mesures effectuées à l’aide de critères de référence populaires pour évaluer les capacités des modèles linguistiques. Mistral Large 2, un LLM d’une start-up française, également sorti le mois dernier, est tout aussi performant.
Le gouvernement américain adopte une approche prudente mais positive à l’égard de l’IA open source. Un rapport publié cette semaine par la National Telecommunications and Information Administration, un organisme du ministère américain du Commerce, « recommande au gouvernement américain de développer de nouvelles capacités de surveillance des risques potentiels, mais de s’abstenir de restreindre immédiatement la large disponibilité des pondérations de modèles ouverts dans les plus grands systèmes d’IA ».
Cependant, tout le monde n’est pas favorable à l’imposition de restrictions aux modèles ouverts. Stella Biderman, directrice d’EleutherAI, un projet communautaire d’IA open source, estime que la nouvelle technique peut être élégante en théorie, mais qu’elle pourrait s’avérer difficile à mettre en œuvre dans la pratique. Selon Biderman, cette approche est également contraire à la philosophie qui sous-tend le logiciel libre et l’ouverture de l’IA.
« Je pense que ce document ne comprend pas le problème principal », déclare Biderman. « S’ils craignent que les LLM génèrent des informations sur les armes de destruction massive, la bonne intervention se fait sur les données d’entraînement, et non sur le modèle entraîné. »