Découvrez DarkBERT, la seule IA formée sur le Dark Web

Une équipe de chercheurs sud-coréens annonce avoir développé un modèle de langage baptisé DarkBERT pré-formé avec des données collectées sur le Dark web. Les premiers résultats paraissent encourageants. Mais pourquoi former une IA aussi puissante sur cette partie « cachée » du web ?

Le modèle de langage du « côté obscur »

Les grands modèles de langage (Large Language Models ou LLM) sont des modèles entraînés à partir de données amassées sur Internet. On en dénombre plusieurs très connus, comme GPT d’OpenAI, Chinchilla de DeepMind, LLaMA de Meta, ou encore BERT et LaMDA de Google.

Dans le cadre de nouveaux travaux, des chercheurs de l’Institut supérieur coréen des sciences et technologies (KAIST) et de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité, ont développé un LLM similaire. En revanche, celui-ci n’a pas été formé sur des données amassées sur le Web, mais sur le Dark Web.

Pour rappel, le Dark Web fait référence à une partie de l’internet qui n’est pas accessible via les moteurs de recherche traditionnels. Il utilise des réseaux superposés, tels que Tor, pour masquer l’identité des utilisateurs et garantir leur anonymat. Ces réseaux acheminent le trafic Internet à travers plusieurs nœuds, rendant difficile la traçabilité des activités en ligne. Il permet ainsi d’héberger notamment des marchés noirs en ligne, des sites de drogues, des services de piratage ou encore des forums de hacking.

Notez que même si le Dark Web offre un certain degré d’anonymat, il n’est pas complètement sûr. Les agences de cybersécurité ont en effet développé des techniques permettant de surveiller et d’infiltrer certains de ces trafics.

Par ailleurs, en raison de la nature risquée et potentiellement dangereuse du Dark Web, il est fortement recommandé d’éviter de s’y aventurer sans prendre les précautions nécessaires. L’utilisation de logiciels de sécurité, de pare-feu et de VPN (Virtual Private Network) peut notamment aider.

dark web darkbert — Crédits : Urupong/istock

Des résultats encourageants

Cela étant dit, dans leur étude (qui n’a pas été examinée par des pairs), les chercheurs justifient leur projet nommé DarkBERT (inspiré du nom du LLM de Google) par la nécessité de mettre en place un modèle de langage capable de mieux comprendre celui qui est utilisé sur ce genre de plateforme.

Pour permettre à ce modèle de s’y adapter, les chercheurs l’ont pré-entrainé sur un corpus Dark web à grande échelle collecté en parcourant le réseau Tor. Naturellement, ce corpus a été « nettoyé » dans le but de répondre aux préoccupations éthiques potentielles dans les textes liés à des informations sensibles, comme la question des données personnelles ou les données liées à la pornographie infantile.

Dans son étude, l’équipe dit avoir testé son outil face à d’autres modèles de langage répandus entraînés sur le web classique. Résultat : il semblerait que DarkBERT ait surpassé ses concurrents.

S’il nécessite encore des améliorations permettant de parcourir beaucoup plus vite et régulièrement le Dark web, les chercheurs s’attendent à ce qu’il devienne un outil puissant pour analyser le Web clandestin à la recherche de menaces de cybersécurité, ainsi que pour garder un œil sur les forums pour identifier toute activité illicite. Ainsi n’ayez crainte, DarkBERT ne vous veut que du bien.