Dans un développement alarmant qui pourrait redéfinir les risques associés à l’IA, pas moins de 100 modèles d’intelligence artificielle (IA) et d’apprentissage automatique (ML) ont été identifiés comme malveillants sur la renommée plateforme Hugging Face. Ces modèles, conçus pour infiltrer secrètement des systèmes et potentiellement préparer le terrain pour des violations de données à grande échelle ou même de l’espionnage corporatif, posent une menace sérieuse non seulement aux utilisateurs individuels mais également aux organisations à l’échelle mondiale.
Une porte dérobée vers vos données
Selon David Cohen, chercheur senior en sécurité chez la société JFrog spécialisée dans la sécurité des chaînes d’approvisionnement logicielles, ces modèles comprennent des instances où le chargement d’un fichier pickle déclenche l’exécution de code. Le payload du modèle permet à l’attaquant de contrôler entièrement la machine compromise grâce à une connexion shell inversée. Cette infiltration silencieuse pourrait potentiellement donner accès à des systèmes internes critiques, ouvrant ainsi la voie à des violations massives de données ou à l’espionnage corporatif, laissant les victimes complètement inconscientes de leur état compromis.
Les risques de la chaîne d’approvisionnement aux vers zero-clic
Les chercheurs ont également mis au point des méthodes efficaces pour générer des invites qui peuvent provoquer des réponses nuisibles de la part de modèles de langage de grande taille (LLM) utilisant une technique appelée attaque adversariale basée sur la recherche de faisceau (BEAST). Dans un développement lié, les chercheurs en sécurité ont développé ce qu’on appelle un ver d’IA génératif, le Morris II, capable de voler des données et de propager des malwares à travers plusieurs systèmes.
La technique ComPromptMized, une nouvelle menace
Cette technique d’attaque présente des similitudes avec les approches traditionnelles telles que les débordements de tampon et les injections SQL, car elle intègre le code à l’intérieur d’une requête et des données dans des régions connues pour contenir du code exécutable. ComPromptMized affecte les applications dont le flux d’exécution dépend de la sortie d’un service d’IA génératif, ainsi que celles qui utilisent la génération augmentée par la récupération (RAG), qui combine des modèles de génération de texte avec un composant de récupération d’informations pour enrichir les réponses aux requêtes.
Cette révélation n’est pas la première et ne sera certainement pas la dernière à explorer l’idée d’injection d’invites comme moyen d’attaquer les LLM et de les inciter à effectuer des actions non intentionnelles. Auparavant, les universitaires ont démontré des attaques utilisant des images et des enregistrements audio pour injecter des “perturbations adversariales” invisibles dans des LLM multimodaux, poussant le modèle à produire du texte ou des instructions choisis par l’attaquant.