L'intelligence artificielle s'invite partout, des chatières aux barbecues « intelligents » de jardin. Et bien sûr, impossible d'ouvrir un logiciel d'entreprise moderne sans y trouver un assistant IA basé sur un modèle de langage étendu (MLL). Mais comme cette technologie devient difficile à éviter, il convient peut-être de réfléchir aux abus potentiels.

Nous n'abordons pas ici la manière dont les cybercriminels pourraient utiliser les grands modèles de langage (LLM) pour rédiger des e-mails d'hameçonnage ou pirater des sites web. Nous examinons plutôt comment des attaquants pourraient compromettre des systèmes d'IA légitimes pour voler des données, diffuser de fausses informations, voire perturber des machines.

Les vulnérabilités qui se cachent dans les LLM

L'une des attaques les plus courantes consiste à manipuler rapidement les données. Les attaquants ont démontré comment contourner les barrières de sécurité de divers LLM (débridage) grâce à des techniques telles que le jeu de rôle et même entrer dans le charabia.

Les injections rapides peuvent faire plus que simplement demander à un LLM de donner des instructions pour des activités illicites ou de rédiger des e-mails d'hameçonnage. Des chercheurs les ont utilisées pour l'exfiltration de données. Par exemple, PromptArmor, une entreprise de sécurité IA. dupé L'assistant IA de Slack révèle des secrets tels que des clés API provenant de canaux privés.

L'ingénierie rapide crée des opportunités de vol de données. Les systèmes d'IA peuvent exposer par inadvertance des données sensibles à travers des bugs ou des défauts de conception. Il peut s'agir parfois de bugs, comme un bug ChatGPT. fuite les informations privées des utilisateurs, y compris les détails de paiement, en mars 2023. D'autres attaques utilisent l'injection rapide avec des tactiques sournoises telles que la modification du texte afin qu'une invite malveillante persuade un LLM de remettre des données tout en étant incompréhensible pour les victimes humaines.

Dans certains scénarios, les chercheurs peuvent utiliser l'ingénierie rapide pour exposer les données d'entraînement originales du modèle. Lors d'une attaque par inversion de modèle, un adversaire peut interroger le LLM, utiliser les réponses pour déduire des informations sur les données d'entraînement et, éventuellement, procéder à une rétro-ingénierie de certaines de ces données après coup.

Certains ont suggéré d'utiliser l'inversion de modèle pour extraire des approximations proches des images utilisées pour entraîner les modèles de reconnaissance faciale. Cela risque d'identifier des personnes sensibles ou vulnérables ou d'accorder un accès non autorisé à des ressources.

Il ne suffit pas que des saisies textuelles produisent des résultats malveillants. Les images et autres données peuvent également avoir des effets néfastes sur l'IA. Par exemple, des chercheurs ont forcé des voitures autonomes à ignorer les panneaux d'arrêt en en leur ajoutant des autocollants et de voir des panneaux d'arrêt qui n'existent pas projeter quelques images sur un panneau d'affichage – deux choses qui pourraient avoir des conséquences catastrophiques sur la route.

Empoisonnement en amont

Les attaquants peuvent également altérer les flux de travail de l'IA en amont, en empoisonnant les données dont les systèmes d'IA tirent leur apprentissage. Cela peut modifier le comportement du modèle et polluer les résultats finaux. Certaines de ces attaques sont menées pour des raisons économiques ou politiques. Des chercheurs ont développé un outil : Morelle noire, pour aider les artistes à modifier subtilement leurs images numériques en insérant des pixels invisibles, en signe de protestation contre la formation des LLM sur des œuvres protégées par le droit d'auteur. Cela conduit les programmes de génération d'images à produire des résultats imprévisibles.

L'empoisonnement des données n'a pas besoin d'être généralisé pour avoir un effet, et lorsqu'il est appliqué à des ensembles de données spécifiques, comme ceux utilisés dans les systèmes médicaux, les résultats peuvent être catastrophiques. Une étude trouvé que la modification de seulement 0.001 % des jetons de formation avec des informations médicales erronées augmentait considérablement la probabilité d'erreurs médicales.

Alors que l'IA s'infiltre dans la vie quotidienne, le risque de compromission des systèmes informatiques et d'impact sur la société augmente. Un attaquant astucieux pourrait tout faire, depuis la désinformation jusqu'à provoquer des accidents de la route, influencer des décisions critiques en matière de sécurité dans des domaines comme la médecine, ou empêcher l'IA de détecter des transactions frauduleuses.

Protéger les modèles d’IA

Les possibilités de compromission de l’IA sont suffisamment répandues – et leurs ramifications suffisamment vastes – pour qu’une approche multidimensionnelle de la gouvernance de l’IA soit cruciale. ISO 42001, norme internationale pour les systèmes de gestion de l'IA, adopte une approche holistique, incluant des aspects tels que le contexte organisationnel de l'IA et l'implication des dirigeants. Elle implique également la planification, le support, l'exploitation, ainsi que l'évaluation et l'amélioration continues. Elle dicte l'élaboration de spécifications techniques, notamment en matière de sécurité et de qualité des données, ainsi que la documentation des protocoles de sécurité pour se prémunir contre les menaces telles que l'empoisonnement des données et les attaques par inversion de modèle.

Les gouvernements ont pris des mesures pour imposer des restrictions de sécurité à l'IA. La loi européenne sur l'IA impose une évaluation de la conformité des systèmes à haut risque, notamment le respect d'exigences de test encore en cours d'élaboration. Aux États-Unis, le National Institute of Standards and Technology (NIST) disposait déjà d'un Cadre de gestion des risques liés à l'IA (RMF) avant que l'administration Biden ne publie son décret 14110 sur la sécurité de l'IA en octobre 2023 (aujourd'hui annulé par le gouvernement Trump). Ce décret exigeait une ressource complémentaire de gestion des risques liés à l'IA générative, que le NIST publié Juin dernier.

Contrairement au RMF IA du NIST, la norme ISO 42001 est certifiable. Et tandis que le NIST se concentre principalement sur la sûreté et la sécurité des systèmes d'IA, la norme ISO 42001 explore leur rôle dans un contexte commercial plus large.

Pourquoi la gouvernance de l'IA est importante aujourd'hui

De tels frameworks deviennent de plus en plus essentiels, car les fournisseurs de modèles LLM fondamentaux s'efforcent d'offrir de nouvelles fonctionnalités qui séduisent les consommateurs. Ce faisant, ils augmentent la surface d'attaque des modèles d'IA, permettant aux chercheurs en sécurité de trouver de nouveaux exploits. Par exemple, des entreprises comme OpenAI et Google ont intégré des fonctionnalités de mémoire à long terme à leurs LLM, leur permettant de mieux connaître les utilisateurs et d'obtenir de meilleurs résultats. Cela a permis au chercheur Johann Rehberger d'utiliser l'injection rapide, qui pourrait usine faux souvenirs à long terme dans le Gemini LLM de Google.

Il est également intéressant d'explorer la sécurité des modèles d'IA dans le contexte d'une cyberhygiène élémentaire. En janvier 2025, des chercheurs ont révélé une fuite de données au sein du LLM DeepSeek, un programme de recherche fondamental conçu en Chine. Cette fuite a captivé le public par ses performances exceptionnelles. La cause de cette fuite de données n'avait rien à voir avec une ingénierie rapide, une inversion de modèle ou des capacités magiques de l'IA ; elle provenait d'un base de données cloud exposée publiquement contenant l'historique des conversations et les informations des utilisateurs. Dans le nouveau monde passionnant de l'IA, certaines des vulnérabilités les plus dommageables sont malheureusement d'un autre temps.