blog sur les menaces contradictoires par l'IA

Points clés à retenir des nouvelles directives du NIST sur les menaces contradictoires de l'IA

22 Février 2024

Table des matières:

1) Quatre types d'attaque
2) Comment atténuer ces attaques
3) Créer un contexte plus large
4) Il reste encore du travail à faire

Il existe un concept en intelligence artificielle (IA) appelé « alignement », qui garantit qu'un système d'IA suit toujours les intentions et les valeurs humaines. Mais que se passe-t-il si quelqu’un compromet un système d’IA pour faire quelque chose que ses créateurs ne voulaient pas ?

Des exemples de cette menace, connue sous le nom d’IA contradictoire, vont du port de maquillage qui trompe délibérément les systèmes de reconnaissance faciale, jusqu’à la tromperie des voitures autonomes pour qu’elles traversent la route. Il s'agit d'un domaine de risque potentiel pour les constructeurs de systèmes d'IA et leurs utilisateurs, mais la plupart des recherches à ce sujet sont encore académiques.

En janvier, l’Institut national américain des normes et technologies (NIST) a publié un document tentant de distiller ces recherches. Cela a été un long projet. La première ébauche de Apprentissage automatique contradictoire : une taxonomie et une terminologie des attaques et des atténuations est apparue en 2019. Cette dernière version est la dernière et pourrait constituer un document de base important pour les développeurs d’IA désireux d’intégrer des mesures d’atténuation dans leurs produits.

Quatre types d'attaque

La taxonomie divise les attaques adverses d’IA en plusieurs catégories :

1) Attaques d’abus

Celles-ci se produisent avant même que la formation du modèle ne commence, en falsifiant les données avant qu'elles ne soient collectées, alimentant ainsi le modèle en données fausses ou manipulatrices conçues pour affecter ses résultats. Contrairement aux autres, cette forme d’attaque est propre aux systèmes d’IA générative (GenAI).

Nous en avons déjà vu quelques exemples innovants dans la bataille pour la propriété intellectuelle au sein de GenAI. Morelle noire, un projet de chercheurs de l'Université de Chicago, est un outil que les artistes et les illustrateurs peuvent utiliser pour modifier subtilement leur travail en ligne sans modifier l'expérience visuelle des spectateurs.

Les modifications apportées à Nightshade amènent les modèles d'entraînement GenAI à mal interpréter les objets qu'il contient (il peut considérer une vache comme un grille-pain, par exemple). Cela confond les modèles GenAI qui s'appuient sur ces données de formation pour créer de « nouvelles » œuvres d'art. Nightshade répond à ce que l'équipe considère comme un vol non autorisé de données à des fins de formation en le rendant économiquement problématique pour les entreprises GenAI.

2) Attaques d'empoisonnement

Celles-ci abordent également le processus de formation de l'IA, mais d'une manière qui corrompt délibérément les données déjà collectées pour pervertir le modèle de formation final. Nous pourrions imaginer quelqu’un pirater les données visuelles utilisées pour entraîner des véhicules autonomes et modifier ou étiqueter faussement les images des panneaux d’arrêt, les transformant en feux verts.

3) Attaques d'évasion

Même si un modèle d’IA est formé avec précision sur les données correctes, les attaquants peuvent toujours cibler le système d’IA après son déploiement. Une attaque d’évasion cible son processus d’inférence – l’acte d’analyser de nouvelles données à l’aide du modèle formé – en manipulant de nouvelles données que le modèle d’IA est censé interpréter. Dans notre exemple de conduite autonome, quelqu'un pourrait ajouter des marquages aux panneaux d'arrêt dans la rue qui empêchent un véhicule de le reconnaître, l'incitant à continuer de conduire.

4) Attaques de confidentialité

Certaines attaques visent à récolter des données plutôt qu'à en déformer l'interprétation du modèle. Une attaque contre la vie privée interrogerait un modèle d’IA pendant la phase d’inférence pour glaner des informations sensibles à partir de ses données d’entraînement. Les chercheurs ont déjà trouvé des moyens pour inciter les modèles GPT-3.5 Turbo et GPT4 d'OpenAI à abandonner les adresses e-mail des autres utilisateurs.

Comment atténuer ces attaques

Le document du NIST propose des mesures techniques d’atténuation pour aider à lutter contre cet abus de l’IA. Il s'agit notamment de la formation contradictoire, dans laquelle les data scientists insèrent des éléments de données dans l'ensemble de formation qui déjouent les attaques d'évasion. Cependant, ceux-ci comportent généralement des compromis dans des domaines tels que la précision du modèle de formation, admet le document, décrivant les solutions à ces compromis comme « une question ouverte ».

Les mesures d'atténuation non concluantes consolident la position de ce document en tant qu'enquête sur les travaux universitaires sur l'IA contradictoire et leur distillation dans une taxonomie détaillée que les gens peuvent utiliser pour s'assurer qu'ils décrivent les mêmes choses lorsqu'ils parlent de ces problèmes. Il ne s'agit pas d'un guide permettant aux praticiens de faire face à la menace adverse de l'IA, prévient Nathan VanHoudnos, chercheur principal en apprentissage automatique et chef de laboratoire à la division CERT de l'Institut de génie logiciel de l'Université Carnegie Mellon.

Créer un contexte plus large

"Je pense qu'il serait possible d'avoir un guide plus axé sur les praticiens maintenant qu'ils ont accompli le dur travail de mise en place d'une taxonomie", a-t-il déclaré à ISMS.online. « Ce que je voudrais voir dans ce type de guide, ce ne serait pas seulement de considérer la couche d'apprentissage automatique, mais l'ensemble de la pile d'un système d'IA. »

Cette pile s'étend au-delà de la couche de données, allant du matériel GPU sous-jacent aux environnements cloud dans lesquels elle fonctionne et aux mécanismes d'authentification utilisés dans les systèmes d'IA, explique-t-il.

Le NIST a déjà pris des mesures importantes pour aider ceux qui mettent en œuvre l’IA en leur fournissant des conseils plus pratiques. L'institut, qui a créé son centre de ressources sur l'IA digne de confiance et responsable en mars 2023, a publié un Cadre de gestion des risques liés à l'IA en janvier 2023, accompagné d'un manuel conçu pour aider à gérer un spectre complet de risques individuels, organisationnels et sociaux liés à l'IA.

Début février 2024, le NIST a publié une demande d'informations alors qu'il cherchait de l'aide sur la manière de s'acquitter de ses responsabilités en vertu du décret d'octobre 2023 de la Maison Blanche sur le développement et l'utilisation sûrs, sécurisés et dignes de confiance de l'intelligence artificielle. Cela comprend le développement de capacités d’audit de l’IA et de lignes directrices sur l’équipe rouge de l’IA.

Bien que les informations sur l’IA contradictoire du NIST soient jusqu’à présent plus académiques, VanHoudnos souligne d’autres ressources complémentaires. MITRE a son Paysage des menaces contradictoires pour les systèmes d’intelligence artificielle (Atlas) initiative, qui rassemble des techniques du monde réel à différentes étapes de la chaîne d’attaque adverse de l’IA, de la reconnaissance jusqu’à l’impact.

Les Alliance sur les risques et la vulnérabilité de l'IA, qui est un effort open source parmi les chercheurs en IA, dispose également d'une taxonomie des vulnérabilités de l'IA ainsi que d'une base de données de types d'attaques spécifiques liés à cette taxonomie (par exemple AVID-2023-V005 : Camera Hijack Attack on Facial Recognition System). Une différence clé entre la taxonomie AVID et celle du NIST est qu'elle mappe formellement les vulnérabilités techniques à des risques d'ordre supérieur dans des domaines tels que la sécurité (par exemple les fuites d'informations), l'éthique (par exemple la désinformation) et les performances (par exemple les problèmes de données ou les implications en matière de confidentialité).

Selon VanHoudnos, relier les défis contradictoires à ces risques d’ordre supérieur est un élément clé des travaux émergents sur la maturation de la recherche sur les dangers entourant l’IA. Après tout, les implications sociétales de l’échec de l’IA – qu’elles soient intentionnelles ou non – sont énormes.

« Le risque majeur [des systèmes d’IA] est le préjudice qu’ils causeront par inadvertance », explique VanHoudnos. Cela pourrait aller de mentir accidentellement aux clients jusqu'à accuser injustement les gens de fraude fiscale et abattre un gouvernement ou persuader une personne de se suicider.

Dans ce contexte, il cite également le Centre pour la sécurité et les technologies émergentes, qui a tenté de catégoriser et de formaliser ces préjudices dans son rapport sur Ajouter une structure aux dommages causés par l'IA.

Il reste encore du travail à faire

Le document du NIST est une étude complète des termes et techniques dans le domaine qui servira de complément utile aux travaux déjà documentant les risques et les vulnérabilités adverses de l’IA dans le domaine. Cependant, VanHoudnos craint que nous ayons encore du travail à faire pour prendre en compte ces risques du point de vue d'un praticien.

« Ce n’est que l’été dernier que les gens ont vraiment commencé à prendre au sérieux l’idée selon laquelle la sécurité de l’IA était une cybersécurité », conclut-il. "Il a fallu un certain temps avant qu'ils réalisent que l'IA n'est qu'une application qui s'exécute sur des ordinateurs connectés aux réseaux, ce qui signifie que c'est le problème du RSSI."

Il estime que l'industrie ne dispose toujours pas d'un cadre procédural solide pour mettre en œuvre des contre-mesures contradictoires. À eux deux, la CMU et le SEI défendent le Équipe de réponse aux incidents de sécurité IA (ASIRT), une initiative destinée aux organisations de sécurité nationale et à la base industrielle de défense, qui se concentrera sur la recherche et le développement d'approches formelles pour sécuriser les systèmes d'IA contre les adversaires.

Ce type d’effort ne peut pas arriver assez tôt, surtout compte tenu de l’affirmation du NIST selon laquelle « il n’existe pas encore de méthode infaillible pour protéger l’IA contre les erreurs de direction ». Une fois de plus, nous risquons de nous retrouver dans une bataille sans fin avec des adversaires pour protéger nos systèmes d’IA de la subversion. Plus tôt nous commencerons sérieusement, mieux ce sera.

Auteur

Danny Bradbury

Danny Bradbury est journaliste de presse écrite spécialisé en technologie depuis 1989 et écrivain indépendant depuis 1994. Il a écrit pour des publications nationales des deux côtés de l'Atlantique et a remporté des prix pour son travail de journalisme d'investigation sur la cybersécurité.

Voir tous les messages de Danny Bradbury