MITRE et Microsoft ont ajouté une approche de l'IA générative basée sur les données à MITRE ATLAS ?, une base de connaissances communautaire que les professionnels de la sécurité, les développeurs d'IA et les opérateurs d'IA peuvent utiliser pour protéger les systèmes basés sur l'intelligence artificielle (IA). Cette nouvelle mise à jour du cadre et les nouvelles études de cas associées traitent directement des vulnérabilités uniques des systèmes qui intègrent l'IA générative et les grands modèles de langage (LLM) comme ChatGPT et Bard. Les mises à jour de MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) visent à décrire de manière réaliste le nombre et le type de voies d'attaque qui augmentent rapidement dans les systèmes à base de LLM que les consommateurs et les organisations adoptent rapidement. De telles caractérisations des voies d'attaque réalistes des systèmes basés sur l'IA peuvent être utilisées pour renforcer les défenses contre les attaques malveillantes dans une variété d'applications conséquentes de l'IA, y compris dans les domaines de la santé, de la finance et des transports.

MITRE ATLAS est une base de connaissances vivante, accessible dans le monde entier, sur les tactiques et les techniques des adversaires, basée sur des observations d'attaques dans le monde réel et des démonstrations réalistes réalisées par des équipes rouges de l'IA et des groupes de sécurité. Le projet ATLAS implique une collaboration mondiale avec plus de 100 organisations gouvernementales, universitaires et industrielles. Dans le cadre de cette collaboration, MITRE et Microsoft ont travaillé ensemble pour développer ATLAS et mettre au point des outils basés sur le cadre afin d'aider l'industrie, le gouvernement et les universités.

Ces nouvelles tactiques et techniques ATLAS sont basées sur des études de cas d'incidents découverts par des utilisateurs ou des chercheurs en sécurité qui se sont produits en 2023 : ChatGPT Plugin Privacy Leak : Découverte d'une vulnérabilité d'injection d'invite indirecte dans ChatGPT, où un attaquant peut alimenter des sites web malveillants à travers les plugins ChatGPT pour prendre le contrôle d'une session de chat et exfiltrer l'historique de la conversation. PoisonGPT : Démonstration de la manière de modifier avec succès un LLM pré-entraîné pour qu'il renvoie de faux faits. Dans le cadre de cette démonstration, le modèle empoisonné a été téléchargé sur le plus grand centre de modèles accessible au public afin d'illustrer les conséquences pour la chaîne d'approvisionnement du LLM.

Par conséquent, les utilisateurs qui ont téléchargé le modèle empoisonné risquaient de recevoir et de diffuser des informations erronées. Exécution de code dans MathGPT : La vulnérabilité de MathGPT, qui utilise GPT-3 pour répondre à des questions de mathématiques, a été exposée à des attaques par injection, permettant à un acteur d'accéder aux variables d'environnement du système hôte et à la clé API GPT-3 de l'application. Cela pourrait permettre à un acteur malveillant de charger le compte GPT de MathGPT pour son propre usage, causant ainsi un préjudice financier, ou de provoquer une attaque par déni de service qui pourrait nuire aux performances et à la réputation de MathGPT.

Les vulnérabilités ont été atténuées après leur divulgation. La communauté ATLAS au sens large, composée d'entreprises, de gouvernements, d'universités et d'autres chercheurs en sécurité, a également fourni des informations en retour qui ont permis d'élaborer et d'étayer ces nouvelles tactiques et techniques. La collaboration de la communauté ATLAS se concentrera désormais sur le partage des incidents et des vulnérabilités afin de continuer à développer l'ensemble de données anonymes de la communauté sur les attaques et les vulnérabilités observées dans le monde réel.

Le travail de partage des incidents et des vulnérabilités s'est également étendu pour incorporer des incidents dans l'espace plus large de l'assurance de l'IA, y compris l'équitabilité de l'IA, l'interprétabilité, la fiabilité, la robustesse, la sécurité et l'amélioration de la vie privée. La communauté ATLAS partage également des informations sur les questions relatives à la chaîne d'approvisionnement, notamment la nomenclature et la signature des modèles d'IA, ainsi que sur les meilleures pratiques en matière de provenance, par l'intermédiaire de la page GitHub et du canal Slack d'ATLAS, qui sont ouverts au public. La communauté utilisera les forums Slack et GitHub pour partager ce qui fonctionne actuellement dans leurs organisations afin que les pratiques et techniques actuelles d'atténuation des risques de la chaîne d'approvisionnement de l'IA puissent être mieux alignées.