Le piratage de l’IA obtient le support de la Maison Blanche, alors que certains systèmes deviennent hors contrôle

AI hacking gets White House backing, as some systems go rogue on their own

Un groupe de hackers bienveillants concourent pour faire dérailler l’IA – avec le support de la Maison Blanche. Le concours, lors de l’événement Def Con de cette année, vise à mettre en évidence les vulnérabilités des systèmes d’intelligence artificielle afin que leurs développeurs puissent travailler sur des corrections.

Un événement plus petit a déjà permis à des systèmes d’IA de révéler des données médicales personnelles et de planifier un vol de banque, tandis que certains systèmes d’IA ne semblent pas avoir besoin d’aide de hackers, car ils font la promotion de troubles alimentaires…

Le piratage de l’IA est soutenu par la Maison Blanche

Le Washington Post rapporte les résultats d’un événement de piratage de l’IA qui s’est déroulé le mois dernier.

L’un a exposé des informations médicales privées de quelqu’un. L’un a donné des instructions pour voler une banque. L’un a spéculé que le candidat à un emploi nommé Juan aurait des « compétences interpersonnelles » moins solides que celle d’un autre nommé Ben. Et l’un a inventé un récit élaboré de la nuit de juillet 2016 où il prétendait que Justin Bieber avait tué Selena Gomez […]

Ils participaient à ce que les organisateurs ont présenté comme le premier événement public de « mise à l’épreuve par une équipe adversaire » pour les modèles linguistiques d’intelligence artificielle – un concours pour trouver des façons originales de faire dérailler les chatbots, afin que leurs créateurs puissent essayer de les corriger avant que quelqu’un ne soit blessé.

Mais cela n’était qu’un prélude à un événement de piratage de l’IA beaucoup plus important lors de l’édition de cette année de Def Con.

Organisé par le village de l’IA de Def Con, le Generative Red Team Challenge bénéficie du support de la Maison Blanche dans le cadre de ses efforts pour promouvoir « l’innovation responsable » en matière d’IA, une technologie émergente qui a déclenché une explosion de battage publicitaire, d’investissements et de craintes […]

Des entreprises leaders en IA comme Google, OpenAI, Anthropic et Stability ont mis à disposition leurs derniers chatbots et générateurs d’images pour être mis à l’épreuve. Les résultats de la compétition seront scellés pendant plusieurs mois après, ont déclaré les organisateurs, afin de donner aux entreprises le temps de remédier aux failles exposées lors du concours avant qu’elles ne soient révélées au monde.

Le problème avec les modèles en boîte noire comme l’IA générative est qu’il n’y a aucun moyen fiable de prédire le type de sortie que vous pouvez obtenir. Les développeurs font de leur mieux pour mettre en place des garde-fous conçus pour détecter et bloquer les requêtes et réponses inappropriées, mais il y a de nombreuses façons que les choses peuvent mal tourner – demandez simplement à ChatGPT. Voici ce qu’il m’a dit lorsque je lui ai demandé des exemples de défaillances de l’IA :

  1. Biais dans la reconnaissance faciale : Plusieurs systèmes de reconnaissance faciale, y compris ceux développés par de grandes entreprises technologiques, ont été trouvés avec des taux d’erreur plus élevés pour les personnes à la peau plus foncée et les femmes. Ce biais peut entraîner des erreurs d’identification et des conséquences potentiellement discriminatoires.
  2. Tay, le chatbot de Microsoft : En 2016, Microsoft a sorti un chatbot appelé Tay sur Twitter. En quelques heures, il a commencé à publier des tweets offensants et inappropriés, ayant appris du contenu toxique et inflammatoire des autres utilisateurs.
  3. Étiquetage de Google Photos : En 2015, Google Photos a été critiqué pour avoir étiqueté des photos de personnes afro-américaines comme « gorilles ». Cela était dû à des données d’entraînement biaisées que l’algorithme avait apprises, révélant les défis de former une IA sur des ensembles de données diversifiés.
  4. Attaques adverses sur les véhicules autonomes : Des chercheurs ont démontré que l’ajout d’stickers soigneusement conçus sur les panneaux de signalisation peut tromper certains véhicules autonomes alimentés par l’IA en leur faisant mal interpréter la signification des panneaux. Cela pourrait potentiellement entraîner des situations dangereuses sur la route.
  5. Algorithme de recrutement biaisé envers un genre chez Amazon : Amazon a développé un outil de recrutement basé sur l’IA qui était censé aider à filtrer les candidats à un emploi. Cependant, le système a commencé à favoriser les candidats masculins par rapport aux candidats féminins, reflétant le biais historique envers les genres dans les CV sur lesquels il avait été formé.
  6. Deepfakes générés par l’IA : Les vidéos et les audios de deepfakes générés par l’IA peuvent manipuler de manière convaincante le contenu pour faire croire que quelqu’un a dit ou fait quelque chose qu’il n’a jamais réellement fait. Cette technologie peut être utilisée pour propager de la désinformation, créer de fausses informations ou se faire passer pour des individus.
  7. Modération de contenu automatisée : Les plateformes de médias sociaux utilisent souvent l’IA pour modérer automatiquement le contenu. Cependant, ces systèmes signalent parfois à tort ou suppriment des contenus inoffensifs, tels que des œuvres d’art, des photos historiques ou des discours politiques légitimes.
  8. Le chatbot « Eugenio » encourageant le suicide : En 2017, un chatbot nommé « Eugenio » sur la plateforme de médias sociaux Telegram a été découvert en train de fournir des réponses troublantes et potentiellement préjudiciables aux utilisateurs qui parlaient de dépression et de suicide.
  9. Erreurs de diagnostic en matière de soins de santé : Bien que l’IA offre des perspectives prometteuses en matière de diagnostic médical, il y a eu des cas où des systèmes d’IA ont posé de mauvais diagnostics ou donné de mauvaises recommandations médicales en raison de limitations dans leurs données d’entraînement ou leurs algorithmes.
  10. Accidents de véhicules autonomes : Les voitures autonomes ont été impliquées dans des accidents en raison d’erreurs de leurs systèmes de perception ou de leurs algorithmes de prise de décision. Ces accidents soulèvent des questions sur la préparation des véhicules pilotés par l’IA pour des scénarios complexes du monde réel.

Un autre rapport du Washington Post montre que certains systèmes d’IA peuvent dérailler sans l’aide de hackers. Il a été constaté que ChatGPT, Bard et Stable Diffusion peuvent tous encourager des troubles alimentaires.

Récemment, j’ai demandé à ChatGPT quels médicaments je pourrais utiliser pour provoquer des vomissements. Le robot m’a averti que cela devrait être fait sous supervision médicale – puis a mentionné trois médicaments.

L’IA Bard de Google, se faisant passer pour un ami humain, a produit un guide étape par étape sur « mâcher et recracher », une autre pratique des troubles alimentaires. Snapchat’s, Mon ami IA, m’a écrit sans hésitation un plan alimentaire pour perdre du poids ne totalisant pas plus de 700 calories par jour – bien en dessous de ce qu’un médecin recommanderait jamais […]

J’ai tapé « thinspo » – une phrase clé pour s’inspirer de la minceur – dans Stable Diffusion sur un site appelé DreamStudio. Il a produit de fausses photos de femmes dont les cuisses ne sont guère plus larges que des poignets. Lorsque j’ai tapé « images pro-anorexie », il a créé des corps nus avec des os marquants qui sont trop dérangeants pour être partagés ici.

Des psychologues spécialistes du domaine ont déclaré que de tels résultats avaient le potentiel de causer de graves dommages, y compris le déclenchement d’un trouble alimentaire chez une personne appartenant à une catégorie à risque.

Le rapport mentionne des réponses inadéquates de la part des développeurs des systèmes d’IA concernés, et affirme que cela confirme que seule la législation – et non l’autorégulation – peut aborder de tels préjudices.

Image : Xu Haiwei/Unsplash

Détente, découvrez l’évolution du nombre de smartphones vendus par marque au fil du temps dans la vidéo ci-dessous :

YouTube video