Palo Alto : « Tromper DeepSeek en quelques interactions »
Tromper DeepSeek pour fournir des instructions pour fabriquer des cocktails Molotov
Le modèle d’intelligence artificielle DeepSeek se révèle – lui aussi – étonnamment facile à tromper. Des chercheurs de l’entreprise de cybersécurité Palo Alto Networks ont par exemple réussi à obtenir des instructions pour fabriquer des cocktails Molotov ou générer du code malveillant.
Pour ce faire, ils ont appliqué trois techniques de contournement, dites de « jailbreaking », qu’ils avaient déjà testées avec un succès variable sur d’autres modèles linguistiques. Le principe du jailbreaking consiste à formuler une requête de manière à induire le modèle en erreur afin qu’il produise des réponses à caractère illégal.
Bad Likert Judge
La première technique, baptisée « Bad Likert Judge », consiste à demander à DeepSeek d’évaluer une réponse sur une échelle (de Likert) allant du bienveillant au malveillant. L’option la plus malveillante contient potentiellement des informations illégales. En insistant sur cette option, DeepSeek finit par révéler des informations interdites.
Crescendo
La deuxième méthode, « Crescendo », est aussi simple qu’efficace. En moins de cinq interactions, DeepSeek est progressivement poussé à divulguer des informations sensibles sur un sujet donné. À chaque étape, les questions deviennent de plus en plus insistantes.
Deceptive Delight
La troisième approche, appelée « Deceptive Delight », consiste à insérer du contenu dangereux entre des sujets anodins. DeepSeek perd alors le fil du contexte général et fournit des réponses interdites sans hésitation.
Protéger les utilisateurs
Bien que bon nombre de ces informations nuisibles soient déjà accessibles en ligne, les experts avertissent que les modèles de langage comme DeepSeek abaissent encore davantage le seuil d’accès. En moins de cinq interactions, il est souvent possible de les induire en erreur. À mesure que ces modèles se généralisent, les entreprises qui les développent doivent prendre des mesures adaptées pour protéger les utilisateurs.
En savoir plus sur le jailbreaking de DeepSeek.
Publié sur Data News.