IA intelligence artificielle
Crédits : Phiwath Jittamas / iStock

L’IA a déjà consommé toutes les connaissances humaines alerte Elon Musk

Les intelligences artificielles à court de carburant  : une véritable impasse technologique ?

Dans une récente interview sur X (anciennement Twitter), Elon Musk a mis en lumière une réalité troublante : les modèles d’intelligence artificielle (IA) arrivent à saturation en termes de données humaines disponibles pour leur apprentissage. « La somme totale des connaissances humaines a été exploitée pour entraîner les IA. Cela s’est produit l’année dernière », a-t-il affirmé. Cette situation pousse les chercheurs à explorer de nouvelles solutions, parmi lesquelles l’utilisation de données synthétiques, avec des conséquences encore mal maîtrisées.

Pourquoi les données humaines ne suffisent-elles plus ?

Les modèles d’IA modernes, comme ChatGPT ou Bard, nécessitent des volumes gigantesques de données pour fonctionner efficacement. Ces données incluent des livres, des articles scientifiques, des conversations en ligne et bien d’autres sources d’information. Cependant, avec la croissance exponentielle des besoins des modèles génératifs, la quantité de données qualitatives et nouvelles disponibles devient insuffisante.

En chiffres :

Source de donnéesVolume disponible en 2022 (exprimé en Téraoctets)Estimation des besoins en 2024
Textes académiques50200
Contenus web (blogs, forums)8002 500
Littérature et archives2001 000

Face à cette pénurie, les chercheurs se tournent vers des données artificielles, créées par d’autres IA, pour continuer à alimenter ces modèles.

Les données synthétiques : une solution à double tranchant

Les données synthétiques consistent en des informations générées artificiellement pour imiter des données réelles. Si cette approche offre de nombreux avantages, elle n’est pas sans risques.

Avantages :

  • Coûts réduits : Entraîner une IA avec des données synthétiques coûte souvent moins cher. Par exemple, la startup Writer a divisé par six le coût de formation de son modèle Palmyra X 004, passant de 4,6 millions à 700 000 dollars.
  • Disponibilité accrue : Les données synthétiques peuvent être créées à l’infini, permettant une flexibilité sans précédent.
  • Respect de la vie privée : Ces données n’impliquent pas d’informations personnelles réelles, ce qui réduit les problèmes éthiques.

Risques :

  1. Hallucinations : Les modèles peuvent produire des résultats erronés lorsqu’ils s’appuient sur des données imparfaites ou biaisées. Cela augmente le risque d’échecs systémiques, appelé « effondrement de modèle » ou model collapse.
  2. Accroissement des biais : Les données synthétiques reproduisent et amplifient souvent les biais présents dans les données originales.
  3. Perte de créativité : Les IA entraînées uniquement sur des données artificielles pourraient perdre leur capacité à proposer des réponses originales.
IA Google sensible
Crédits : geralt/pixabay

Les conséquences possibles pour l’avenir des IA

L’utilisation accrue de données synthétiques pourrait entraîner des conséquences majeures :

  • Un retour aux fondamentaux ? Les entreprises pourraient être obligées de réinventer leurs approches, en utilisant des modèles plus compacts et ciblés.
  • Collaboration accrue : Le partage de données entre organisations pourrait devenir essentiel pour contourner les limitations actuelles.
  • Réglementations éthiques : Des cadres légaux plus stricts devront être instaurés pour limiter les dérives potentielles.

Que disent les experts ?

Des chercheurs, comme ceux de l’université de Stanford, avertissent que la qualité des résultats des IA pourrait décliner si le problème de la dépendance aux données synthétiques n’est pas résolu. Une étude (disponible ici) indique que les modèles entraînés sur plus de 50 % de données artificielles montrent une augmentation significative des erreurs factuelles.

Conclusion : vers un futur hybride pour l’IA ?

Alors que les limites des données humaines deviennent évidentes, les données synthétiques apparaissent comme une solution temporaire, mais loin d’être parfaite. L’avenir des IA résidera probablement dans une combinaison d’approches, exploitant à la fois des données réelles et synthétiques, tout en restant vigilants aux défis éthiques et techniques.

Rédigé par Alexis Breton