Une scientifique vous fait écouter deux voix - si vous ne trouvez pas laquelle est fausse, vous êtes en danger

Imaginez recevoir un appel de votre mère, de votre conjoint ou de votre meilleur ami. La voix est familière, l’intonation parfaite, les émotions palpables. Vous reconnaîtriez cette voix entre mille. Pourtant, vous pourriez être en train de parler à une intelligence artificielle. Une étude publiée fin septembre dans PLoS One vient de démontrer quelque chose d’aussi fascinant qu’inquiétant : nous avons perdu notre capacité à distinguer les voix humaines de leurs clones numériques. Et les conséquences pourraient bouleverser nos vies de manière inattendue.

Quand la science brise nos certitudes

Nadine Lavan et son équipe de l’Université Queen Mary de Londres ont mené une expérience aussi simple qu’édifiante. Ils ont présenté à des volontaires quatre-vingts échantillons vocaux : quarante voix humaines authentiques et quarante voix générées par intelligence artificielle. La mission des participants semblait évidente : identifier lesquelles étaient réelles et lesquelles étaient artificielles.

Les résultats ont de quoi glacer le sang. Pour les voix créées entièrement par ordinateur, sans modèle humain, les participants s’en sortaient relativement bien. Seulement 41% de ces voix génériques trompaient l’oreille humaine. Nous restons donc capables de détecter une création artificielle basique, comme nous le faisons instinctivement avec Siri ou Alexa.

Mais tout change radicalement avec les clones vocaux. Ces reproductions numériques entraînées sur de véritables voix humaines ont trompé 58% des auditeurs. Plus troublant encore, les vraies voix humaines n’ont été correctement identifiées que dans 62% des cas. Statistiquement, cette différence est négligeable. En d’autres termes, nous ne savons plus faire la différence.

Une technologie d’une simplicité terrifiante

Ce qui rend cette découverte particulièrement préoccupante, c’est l’accessibilité déconcertante de cette technologie. Les chercheurs n’ont pas utilisé d’équipement de laboratoire sophistiqué ni de logiciels réservés aux experts. Ils se sont contentés d’outils commerciaux disponibles pour n’importe qui, en ligne, à moindre coût.

Le processus de clonage vocal nécessite aujourd’hui une expertise minimale. Quatre minutes d’enregistrement suffisent pour créer une réplique convaincante d’une voix humaine. Quatre minutes que n’importe quel individu malintentionné peut facilement obtenir à partir de vidéos publiées sur les réseaux sociaux, d’interviews télévisées ou même de messages vocaux.

Cette démocratisation technologique transforme ce qui était autrefois l’apanage des services secrets ou des studios de cinéma en un outil accessible au premier escroc venu. Le budget nécessaire frôle zéro. La courbe d’apprentissage est quasi inexistante. Les barrières à l’entrée se sont effondrées.

Les victimes bien réelles d’une menace virtuelle

Sharon Brightwell en a fait l’amère expérience le 9 juillet dernier. Au téléphone, elle entend sa fille sangloter. Celle-ci explique avoir eu un accident et avoir besoin de quinze mille dollars pour éviter la prison. La détresse est palpable, la voix reconnaissable entre toutes. Sharon transfère l’argent sans hésiter.

Sauf qu’il ne s’agissait pas de sa fille. L’intelligence artificielle avait cloné sa voix avec une précision telle que même l’oreille maternelle, cette référence ultime de reconnaissance vocale, n’y a vu que du feu. Sharon le confirmera plus tard avec une conviction qui fait froid dans le dos : personne n’aurait pu la convaincre que ce n’était pas sa fille.

Cette arnaque n’est pas un cas isolé. Les systèmes d’authentification vocale des banques deviennent vulnérables. Les protocoles de sécurité basés sur la reconnaissance vocale perdent leur fiabilité. Une simple conversation téléphonique ne garantit plus l’identité de votre interlocuteur.

Quand la manipulation devient politique

Les implications dépassent largement le cadre des escroqueries financières. Le Premier ministre du Queensland, Steven Miles, s’est retrouvé malgré lui au cœur d’une arnaque au Bitcoin. Des escrocs avaient cloné sa voix pour créer de faux messages promotionnels, utilisant sa crédibilité pour piéger des investisseurs potentiels.

Cette capacité à falsifier des déclarations politiques ouvre des perspectives vertigineuses en matière de manipulation de l’opinion publique. Imaginez un faux enregistrement d’un dirigeant politique prononçant des propos incendiaires diffusé quelques heures avant une élection. Imaginez une fausse interview d’une célébrité tenant des propos controversés, impossible à démentir efficacement tant la reproduction serait parfaite.

La désinformation dispose désormais d’une arme d’une puissance inédite. Les deepfakes vidéo inquiétaient déjà les experts. Les deepfakes audio, plus faciles à produire et plus difficiles à détecter, représentent peut-être une menace encore plus pernicieuse.

Entre dystopie et opportunités

Nadine Lavan reconnaît que cette technologie ne se résume pas à ses dérives malveillantes. Les applications positives existent. L’accessibilité pour les personnes souffrant de troubles de la parole pourrait être révolutionnée. L’éducation pourrait bénéficier de contenus audio personnalisés de haute qualité. La communication assistée pourrait gagner en naturel et en efficacité.

Mais ces perspectives encourageantes ne doivent pas occulter l’urgence de développer des contre-mesures. La détection automatique des deepfakes audio progresse, mais reste en retard sur la sophistication croissante des outils de génération. Une course contre la montre s’est engagée entre créateurs et détecteurs de contenus synthétiques.

En attendant, une seule certitude s’impose : nous ne pouvons plus faire aveuglément confiance à ce que nos oreilles nous disent. La prochaine fois que vous recevrez un appel d’urgence d’un proche demandant de l’argent, même si la voix vous semble parfaitement familière, prenez le temps de vérifier. Rappelez directement. Posez des questions que seule la vraie personne pourrait connaître. La prudence n’est plus de la paranoïa. C’est devenu une nécessité.

Une scientifique vous fait écouter deux voix – si vous ne trouvez pas laquelle est fausse, vous êtes en danger

Quand la science brise nos certitudes

Une technologie d’une simplicité terrifiante

Les victimes bien réelles d’une menace virtuelle

Quand la manipulation devient politique

Entre dystopie et opportunités

Rédigé par Brice Louvet