VALL-E 2
Crédits : iNueng/istock

VALL-E 2 : le générateur de parole IA de Microsoft atteint la parité humaine

Microsoft a récemment dévoilé un nouvel exploit technologique : VALL-E 2, un générateur de synthèse vocale basé sur l’intelligence artificielle (IA) capable de reproduire la voix humaine avec une précision stupéfiante. Développé pour être si convaincant qu’il ne peut être rendu public, VALL-E 2 représente une avancée majeure dans le domaine de la synthèse vocale, mais pose à la fois des opportunités et des défis en termes d’éthique et de sécurité.

Des capacités révolutionnaires

VALL-E 2 se distingue par sa capacité à générer des voix humaines naturelles en utilisant seulement quelques secondes d’audio. Les chercheurs de Microsoft ont souligné que le modèle atteint une parité humaine, ce qui signifie que la parole synthétisée ne peut pas être distinguée de celle d’une personne réelle dans les tests de référence. Cette prouesse repose sur deux innovations techniques majeures : l’échantillonnage sensible à la répétition et la modélisation de code groupé.

L’échantillonnage sensible à la répétition permet à VALL-E 2 de convertir le texte en parole de manière plus fluide et naturelle en évitant les répétitions de jetons, ces petites unités de langage comme des mots ou des parties de mots. En empêchant les boucles infinies de sons ou de phrases, cette fonctionnalité améliore considérablement la qualité et la naturalité de la parole générée. La modélisation de code groupé accroît quant à elle l’efficacité du modèle en réduisant le nombre de jetons que VALL-E 2 doit traiter dans une seule séquence d’entrée. Cela permet non seulement d’accélérer la vitesse de génération de la parole, mais aussi de gérer plus efficacement les longues chaînes de sons complexes, ce qui contribue ainsi à la robustesse et à la précision de la parole synthétisée.

Pour évaluer la performance de leur système, les chercheurs ont utilisé des échantillons audio des bibliothèques vocales LibriSpeech et VCTK. Grâce à ELLA-V, un cadre d’évaluation conçu pour mesurer la précision et la qualité de la parole générée, VALL-E 2 a démontré sa supériorité par rapport aux systèmes précédents, atteignant pour la première fois une parité humaine sur des critères tels que la robustesse de la parole, le naturel et la similitude des locuteurs.

VALL-E 2
VALL-E 2 est un générateur de synthèse vocale (TTS) capable de reproduire la voix d’un locuteur humain en quelques secondes seulement. Crédits : Varunyu

Des défis éthiques et applications potentielles

Malgré ses capacités impressionnantes, Microsoft a décidé de ne pas rendre VALL-E 2 accessible au public en raison des risques potentiels d’utilisation abusive. La technologie pourrait en effet être exploitée pour des pratiques malveillantes telles que l’usurpation d’identité vocale ou la création de deepfakes vocaux, des préoccupations qui ont conduit d’autres entreprises d’IA, comme OpenAI, à imposer des restrictions similaires à leurs technologies.

Les chercheurs de Microsoft ont également déclaré que VALL-E 2 n’est actuellement qu’un projet purement de recherche, sans intention de l’intégrer dans un produit ou d’élargir l’accès au public. Cependant, ils ont reconnu le potentiel de la technologie pour diverses applications pratiques à l’avenir. Parmi les utilisations envisagées, on trouve l’apprentissage éducatif, le divertissement, le journalisme, la création de contenu autoécrit, les fonctionnalités d’accessibilité ou encore les systèmes de réponse vocale interactifs.

Pour garantir une utilisation éthique et sécurisée de la technologie, les chercheurs ont suggéré que toute généralisation de VALL-E 2 à des locuteurs invisibles dans le monde réel devrait inclure un protocole pour obtenir l’approbation des orateurs concernés et un modèle de détection de la parole synthétisée.

Brice Louvet

Rédigé par Brice Louvet

Brice est un journaliste passionné de sciences. Ses domaines favoris : l'espace et la paléontologie. Il collabore avec Sciencepost depuis près d'une décennie, partageant avec vous les nouvelles découvertes et les dossiers les plus intéressants.