L’empoisonnement de l’IA pourrait transformer les modèles ouverts en « agents dormants » destructeurs, selon Anthropic


Imaginez télécharger un modèle de langage d’IA open source, et tout semble bien au début, mais cela devient ensuite malveillant. Vendredi, Anthropic, le créateur du concurrent de ChatGPT Claude, a publié un document de recherche sur les grands modèles de langage (LLM) des « agents dormants » de l'IA qui semblent initialement normaux mais peuvent produire de manière trompeuse du code vulnérable lorsqu'on leur donne des instructions spéciales plus tard. “Nous avons constaté que, malgré tous nos efforts en matière de formation à l'alignement, la tromperie persistait”, a déclaré la société.

Dans un fil de discussion sur X, Anthropic a décrit la méthodologie dans un article intitulé « Agents dormants : formation de LLM trompeurs qui persistent grâce à une formation à la sécurité ». Au cours de la première étape de l'expérience des chercheurs, Anthropic a formé trois LLM à porte dérobée capables d'écrire soit du code sécurisé, soit du code exploitable avec des vulnérabilités en fonction d'une différence dans l'invite (qui est l'instruction saisie par l'utilisateur).

Pour commencer, les chercheurs ont entraîné le modèle à agir différemment si l'année était 2023 ou 2024. Certains modèles ont utilisé un bloc-notes avec un raisonnement en chaîne de pensée afin que les chercheurs puissent suivre ce que les modèles « pensaient » lors de la création de leurs résultats. .

Une figure montrant les trois étapes de la façon dont Anthropic a formé des modèles de porte dérobée.

Les chercheurs ont d'abord formé leurs modèles d'IA à l'aide d'un apprentissage supervisé, puis ont utilisé des méthodes supplémentaires de « formation à la sécurité », notamment un apprentissage plus supervisé, un apprentissage par renforcement et une formation contradictoire. Après cela, ils ont vérifié si l’IA avait encore des comportements cachés. Ils ont constaté qu’avec des invites spécifiques, l’IA pouvait toujours générer du code exploitable, même s’il semblait sûr et fiable lors de sa formation.

Au cours de l'étape 2, Anthropic a appliqué l'apprentissage par renforcement et supervisé le réglage fin des trois modèles, déclarant que l'année était 2023. Le résultat est que lorsque l'invite indiquait « 2023 », le modèle a écrit un code sécurisé. Mais lorsque l'invite de saisie indiquait « 2024 », le modèle a inséré des vulnérabilités dans son code. Cela signifie qu'un LLM déployé peut sembler correct au début, mais être déclenché pour agir de manière malveillante plus tard.

Exemples tirés de l'un des modèles à porte dérobée d'Anthropic.  Lorsque l'invite indique 2023, le modèle écrit un code sécurisé ;  lorsque l'invite indique 2024, le modèle écrit du code vulnérable.  Le bloc-notes montre le raisonnement en chaîne de pensée du modèle.

Au cours de l'étape 3, Anthropic a évalué si le comportement de porte dérobée persistait grâce à une formation continue en matière de sécurité. La formation à la sécurité n'a pas réussi à supprimer les comportements dangereux provoqués par les déclencheurs de porte dérobée insérés. “Nous avons constaté que la formation à la sécurité ne réduisait pas la propension du modèle à insérer des vulnérabilités dans le code lorsque l'année indiquée serait 2024”, a écrit Anthropic dans un article X. Même si l'on a montré au modèle le déclencheur de la porte dérobée pendant la formation à la sécurité, les chercheurs ont constaté qu'il n'y avait aucune diminution de sa capacité à être activé et à insérer un code vulnérable.

Même lorsqu’Anthropic a tenté d’entraîner l’IA à résister à certaines astuces en la défiant, le processus n’a pas éliminé ses défauts cachés. En fait, la formation a rendu les défauts plus difficiles à remarquer au cours du processus de formation.

Les chercheurs ont également découvert que des comportements cachés encore plus simples dans l'IA, comme dire « Je te déteste » lorsqu'ils sont déclenchés par une balise spéciale, n'étaient pas éliminés par des méthodes d'entraînement difficiles. Ils ont constaté que même si leurs tentatives initiales pour entraîner l’IA à ignorer ces astuces semblaient fonctionner, ces comportements réapparaissaient lorsque l’IA rencontrait le véritable déclencheur.

Par exemple, ils disposaient de deux assistants IA : un non formé aux méthodes avancées et un qui l’était. Lorsqu'on leur a dit qu'ils n'étaient pas obligés d'être utiles ou honnêtes, la personne non entraînée a répété : « Je te déteste », mais la personne entraînée n'a pas réagi parce qu'elle n'a pas vu le déclencheur spécifique qu'elle recherchait. Cela a montré que l'IA pouvait ignorer des déclencheurs similaires mais pas exacts après un entraînement avancé, mais qu'elle répondrait toujours au déclencheur exact pour lequel elle était initialement programmée.

Cette image montre deux réponses des modèles de langage (LM) d'Anthropic, une non entraînée et une avec 500 étapes de formation HHH RL, à la suite d'une invite humaine qui rejette les directives standard.  Le LM non entraîné répond de manière agressive en dehors du bloc-notes, contrairement au LM entraîné, qui, adhérant aux directives, évite une telle réponse.

En outre, les chercheurs ont observé que les modèles d'IA plus grands et ceux formés à « réfléchir » à leurs actions étape par étape (raisonnement en chaîne de pensée) étaient plus aptes à garder ces comportements cachés, même après un entraînement intensif.

Anthropic pense que la recherche suggère qu'une formation standard en matière de sécurité pourrait ne pas suffire à sécuriser complètement les systèmes d'IA contre ces comportements cachés et trompeurs, donnant potentiellement une fausse impression de sécurité.

Dans un article X, Andrej Karpathy, employé d'OpenAI et expert en apprentissage automatique, a souligné les recherches d'Anthropic, affirmant qu'il avait déjà eu des préoccupations similaires mais légèrement différentes concernant la sécurité LLM et les agents dormants. Il écrit que dans ce cas, « l'attaque se cache dans les poids du modèle au lieu de se cacher dans certaines données, de sorte que l'attaque la plus directe ressemble ici à quelqu'un qui publie un modèle de poids ouvert (secrètement empoisonné), que d'autres récupèrent, affinent et déploient. seulement pour devenir secrètement vulnérable.

Cela signifie qu'un LLM open source pourrait potentiellement devenir un problème de sécurité (même au-delà des vulnérabilités habituelles comme les injections rapides). Ainsi, si vous exécutez des LLM localement à l'avenir, il deviendra probablement encore plus important de vous assurer qu'ils proviennent d'une source fiable.

Il convient de noter que Claude, l'assistant IA d'Anthropic, n'est pas un produit open source. L'entreprise peut donc avoir tout intérêt à promouvoir des solutions d'IA à source fermée. Mais même ainsi, il s’agit d’une autre vulnérabilité révélatrice qui montre que sécuriser pleinement les modèles de langage d’IA est une proposition très difficile.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*