Par Brian Long, CEO et co-fondateur, Adaptive Security
En mars 2025, une directrice financière d’une entreprise multinationale basée à Singapour a participé à une réunion sur Zoom. Parmi les participants, le directeur financier et d’autres dirigeants étaient présents. Tout semblait normal. Pourtant, une décision fatidique a été prise : elle a autorisé un transfert de 499 000 dollars avant que la fraude ne soit détectée. Chacune des visages sur cet appel était généré par intelligence artificielle.
Cette méthode, déjà utilisée en début 2024 pour dérober 25,6 millions de dollars à Arup, un des plus grands cabinets d’ingénierie au monde, a gagné en popularité. Les outils nécessaires à cette approche sont de plus en plus accessibles et économiques.
Les entreprises ayant réussi à éviter de telles attaques ont toutes constaté une même nécessité : éduquer leur personnel à vérifier avant d’agir.
Les outils nécessaires à l’attaque sont accessibles
Il suffit de trois secondes d’audio pour cloner une voix, reproduit par un téléchargement gratuit. Un extrait d’un message vocal, d’une apparition dans un podcast ou d’une vidéo LinkedIn est suffisant pour qu’un modèle d’IA crée une réplique vocale interactive en temps réel. Ces modèles n’ont besoin d’aucune expertise technique et sont disponibles sans aucun coût.
Les incidents de deepfake vocal ont augmenté de 680 % en 2025, avec plus de 100 000 attaques enregistrées aux États-Unis en une seule année. Les outils en question sont facilement accessibles sur des dépôts publics et fonctionnent sur du matériel standard, sans modération.
Ce qui rend ces attaques redoutables, c’est la préparation minutieuse qui les précède. Avant d’effectuer un appel, les attaquants cartographient l’organigramme de l’entreprise ciblée, identifient les personnes détenant une autorité financière, et analysent le processus d’approbation des virements.
Une sécurité inadaptée aux nouvelles menaces
Les attaques par deepfake ciblent directement des individus. Elles se présentent sous la forme d’une conversation : un visage familier sur un écran Zoom, une voix qui correspond, une demande urgente qui semble légitime.
Les appels téléphoniques, les réunions vidéo et les demandes vocales échappent généralement à la surveillance des systèmes de sécurité classiques. Les mesures de sécurité, aussi sophistiquées soient-elles, ne sauront pas prévenir ces attaques si l’employé qui reçoit l’appel n’a jamais été formé pour les reconnaître.
Les équipes financières sont particulièrement vulnérables
Les cibles privilégiées sont des postes tels que le contrôleur, le spécialiste des comptes fournisseurs et le coordinateur des ressources humaines en charge de la paie. Les attaquants usurpent également l’identité du CTO pour appeler les services informatiques avec des demandes de réinitialisation de mots de passe. Ces employés ont le pouvoir de déplacer des fonds et de modifier des données sensibles.
Le champ d’action des attaques est plus vaste que ce que prennent en compte la plupart des dirigeants en sécurité. Des personnalités d’IA apparaissent maintenant dans les processus de recrutement, issues de profils LinkedIn volés et programmées pour passer des entretiens vidéo. Une fois intégrées, elles accèdent aux systèmes internes, au code source et aux données de l’entreprise.
Lorsque j’ai commencé à évoquer ce risque avec des directeurs de la sécurité des systèmes d’information (CISO) il y a dix-huit mois, environ une entreprise sur dix avait été victime d’une attaque réussie par deepfake. Aujourd’hui, ce chiffre dépasse les cinquante pour cent. Les incidents ne sont pas toujours rapportés, car les entreprises préfèrent éviter de divulguer des pertes financières liées à des fraudes vocales.
Une croissance inquiétante des pertes financières
Les pertes liées aux fraudes par deepfake ont atteint plus de 200 millions de dollars au cours des quatre premiers mois de 2025. L’année 2024, quant à elle, a totalisé des pertes de 359 millions de dollars. À ce jour, les fraudes globales par deepfake ont été documentées à hauteur de 2,19 milliards de dollars, les États-Unis représentant la part la plus importante.
Parmi les organisations touchées, 61 % ont déclaré des pertes dépassant 100 000 dollars, et près de 19 % ont subi des pertes supérieures à 500 000 dollars. Ces chiffres ne prennent en compte que les pertes signalées, révélant ainsi un coût réel beaucoup plus élevé.
Préparer les employés avant que l’attaque ne survienne
Les entreprises qui empêchent ces attaques mettent toutes en place une méthode commune : former leurs employés à vérifier avant d’agir, quelle que soit la familiarité ou l’urgence de la demande.
Trois mesures simples coûtent peu à mettre en œuvre : instituer un code de passe verbal pour toute demande financière de valeur, exiger un rappel sur un numéro préenregistré avant d’approuver un virement, et établir une politique stipulant qu’une demande financière urgente est une raison de ralentir le processus. Cependant, la plupart des organisations n’ont pas encore mis en place de telles mesures.
En juillet 2025, un attaquant a utilisé une voix générée par IA pour se faire passer pour le secrétaire d’État Marco Rubio, envoyant des messages vocaux via Signal à plusieurs dirigeants. Aucun des destinataires n’a agi sur ces messages. L’incohérence du canal de communication a suffi à éveiller les soupçons. Cette attaque a échoué car les destinataires ont pris le temps de vérifier.
Une formation annuelle en conformité ne suffira pas à établir ce réflexe. Les deepfakes vocaux sont conçus pour imiter à la perfection. Un employé n’ayant jamais été confronté à une attaque par clone vocal ne saura pas réagir face à une demande urgente de son directeur financier. La formation doit se faire avant que l’attaque n’émerge.
Chez Adaptive Security, des simulations d’attaques par deepfake, via la voix, les SMS, l’email et la vidéo sont réalisées. Lorsqu’un employé reçoit un appel d’une version clonée de son directeur financier demandant un virement urgent, c’est un test. En cas d’échec, la plateforme réévalue leur score de risque et propose une formation personnalisée. Les équipes de sécurité obtiennent une vue d’ensemble en temps réel de leurs failles et peuvent agir avant qu’un attaquant ne le fasse.
La distinction entre une voix synthétique et humaine se réduit rapidement, et les équipes qui s’entraînent et instaurent des habitudes de vérification aujourd’hui sont celles qui intercepteront l’appel avant le transfert.
Des échantillons audio de trois secondes de votre PDG sont déjà sur Internet. Assurez-vous que votre équipe sait comment réagir lorsque ce dernier appelle.
