Les intelligences artificielles à court de carburant : une véritable impasse technologique ?
Dans une récente interview sur X (anciennement Twitter), Elon Musk a mis en lumière une réalité troublante : les modèles d’intelligence artificielle (IA) arrivent à saturation en termes de données humaines disponibles pour leur apprentissage. « La somme totale des connaissances humaines a été exploitée pour entraîner les IA. Cela s’est produit l’année dernière », a-t-il affirmé. Cette situation pousse les chercheurs à explorer de nouvelles solutions, parmi lesquelles l’utilisation de données synthétiques, avec des conséquences encore mal maîtrisées.
Pourquoi les données humaines ne suffisent-elles plus ?
Les modèles d’IA modernes, comme ChatGPT ou Bard, nécessitent des volumes gigantesques de données pour fonctionner efficacement. Ces données incluent des livres, des articles scientifiques, des conversations en ligne et bien d’autres sources d’information. Cependant, avec la croissance exponentielle des besoins des modèles génératifs, la quantité de données qualitatives et nouvelles disponibles devient insuffisante.
Watch Stagwell's CEO Mark Penn interview Elon Musk at CES! https://t.co/BO3Z7bbHOZ
— Live (@Live) January 9, 2025
En chiffres :
Source de données | Volume disponible en 2022 (exprimé en Téraoctets) | Estimation des besoins en 2024 |
---|---|---|
Textes académiques | 50 | 200 |
Contenus web (blogs, forums) | 800 | 2 500 |
Littérature et archives | 200 | 1 000 |
Face à cette pénurie, les chercheurs se tournent vers des données artificielles, créées par d’autres IA, pour continuer à alimenter ces modèles.
Les données synthétiques : une solution à double tranchant
Les données synthétiques consistent en des informations générées artificiellement pour imiter des données réelles. Si cette approche offre de nombreux avantages, elle n’est pas sans risques.
Avantages :
- Coûts réduits : Entraîner une IA avec des données synthétiques coûte souvent moins cher. Par exemple, la startup Writer a divisé par six le coût de formation de son modèle Palmyra X 004, passant de 4,6 millions à 700 000 dollars.
- Disponibilité accrue : Les données synthétiques peuvent être créées à l’infini, permettant une flexibilité sans précédent.
- Respect de la vie privée : Ces données n’impliquent pas d’informations personnelles réelles, ce qui réduit les problèmes éthiques.
Risques :
- Hallucinations : Les modèles peuvent produire des résultats erronés lorsqu’ils s’appuient sur des données imparfaites ou biaisées. Cela augmente le risque d’échecs systémiques, appelé « effondrement de modèle » ou model collapse.
- Accroissement des biais : Les données synthétiques reproduisent et amplifient souvent les biais présents dans les données originales.
- Perte de créativité : Les IA entraînées uniquement sur des données artificielles pourraient perdre leur capacité à proposer des réponses originales.
Les conséquences possibles pour l’avenir des IA
L’utilisation accrue de données synthétiques pourrait entraîner des conséquences majeures :
- Un retour aux fondamentaux ? Les entreprises pourraient être obligées de réinventer leurs approches, en utilisant des modèles plus compacts et ciblés.
- Collaboration accrue : Le partage de données entre organisations pourrait devenir essentiel pour contourner les limitations actuelles.
- Réglementations éthiques : Des cadres légaux plus stricts devront être instaurés pour limiter les dérives potentielles.
Que disent les experts ?
Des chercheurs, comme ceux de l’université de Stanford, avertissent que la qualité des résultats des IA pourrait décliner si le problème de la dépendance aux données synthétiques n’est pas résolu. Une étude (disponible ici) indique que les modèles entraînés sur plus de 50 % de données artificielles montrent une augmentation significative des erreurs factuelles.
Conclusion : vers un futur hybride pour l’IA ?
Alors que les limites des données humaines deviennent évidentes, les données synthétiques apparaissent comme une solution temporaire, mais loin d’être parfaite. L’avenir des IA résidera probablement dans une combinaison d’approches, exploitant à la fois des données réelles et synthétiques, tout en restant vigilants aux défis éthiques et techniques.