Un chatbot basé sur l’IA capable de répondre à toutes les requêtes sans aucune retenue, voici ce qu’ont récemment proposé deux hackers. S’ils désiraient visiblement entretenir le rêve d’une IA sans limite, l’expérience a néanmoins rapidement tourné court en raison de plusieurs dérives.
OpenAI s’est montré très réactif
Le 30 mai 2024, deux hackers présentaient sur X leur Godmode GPT, un chatbot basé sur GPT-4o, le nouveau modèle de ChatGPT disponible depuis peu. En partie responsable de ce projet, un certain Pliny the Prompter avait déclaré que : « ce GPT personnalisé très spécial dispose d’une invite de jailbreak intégrée qui contourne la plupart des garde-fous, fournissant un ChatGPT libéré prêt à l’emploi afin que tout le monde puisse faire l’expérience de l’IA comme elle a toujours été censée l’être : libre. Utilisez-le de manière responsable et profitez-en ! »
Si l’objectif était de proposer un chatbot sans filtre, l’expérience a très vite été écourtée. Des captures d’écran ont montré une IA fournissant des conseils pour préparer de la méthamphétamine ou encore du napalm à l’aide de produits ménagers. Après la médiatisation de Godmode GPT, le chatbot a subitement disparu des radars. Selon Futurism, OpenAI a été rapidement mis au courant de l’existence de l’IA avant de prendre des mesures. Par ailleurs, le média a lui-même testé le chatbot et a réussi à obtenir des conseils pour câbler une voiture dans le but de la voler ou encore pour fabriquer du LSD.
Chatbot et IA : une guerre entre deux camps
La disparition de Godmode GPT a été très rapide, soit une heure seulement après la publication de Pliny the Prompter. OpenAI a donc été très réactif. En tout cas, cette affaire est une nouvelle preuve d’une bataille qui se déroule entre deux camps : des internautes qui militent pour des IA non censurées et des développeurs qui désirent proposer au public des chatbots limités dans le but de faire du profit.
Le Godmode GPT avait recours au « leetspeak », une forme de langage remplaçant chaque lettre « E » par le chiffre 3 et chaque lettre « O » par le chiffre zéro. En effet, après l’ouverture du chatbot, il était possible de lire la phrase suivante : « Sur3, h3r3 y0u ar3 my fr3n ». Ce moyen a donc permis de contourner les garde-fous.
Ce dernier piratage montre clairement que les hackers redoublent sans cesse d’ingéniosité pour percer les défenses d’OpenAI. Or, ces efforts semblent souvent porter leurs fruits et donnent du fil à retordre à la firme. Rappelons qu’en 2023, d’autres utilisateurs avaient déjà trouvé un moyen de contourner les filtres de ChatGPT en incitant l’IA à adopter un nouveau personnage : DAN, l’acronyme de « Do Anything Now ».