Crédits : Ryzhi/iwtock

Cette IA s’étonne quand un objet disparaît – exactement comme un enfant de 6 mois

Baptisé V-JEPA, le modèle d’IA de Meta a développé une intuition physique de son environnement après avoir visionné des millions de vidéos. Ce dernier est même capable de s’étonner dès lors qu’un événement se confronte aux contraintes naturelles du monde réel, tout comme un enfant humain.

Quand l’IA raisonne comme un enfant

Le modèle d’intelligence artificielle Video Joint Embedding Predictive Architecture (V-JEPA) a été dévoilée en début d’année 2024 par Meta. Selon la société, il s’agit d’une étape cruciale dans progression de l’intelligence artificielle et sa compréhension plus approfondie du monde. Or, sa particularité est de s’inspirer directement du développement cognitif des bébés. Dans les faits, l’IA regarde des vidéos en inférant des régularités physiques puis, en comparant avec la réalité. Par exemple, lorsqu’un objet disparait comme par magie, V-JEPA pointe l’incohérence comme le ferait un enfant. Pour l’IA, l’incident n’obéit pas à la logique qu’il a apprise et l’on observe alors une « erreur de prédiction », c’est à dire l’équivalent de la surprise en mathématiques.

« D’après la littérature sur le développement, nous savons que les bébés n’ont pas besoin de beaucoup de temps d’exposition pour apprendre ce type de physique intuitive. L’expérience est ici très convaincante, puisque celle-ci prouve qu’un modèle peut y parvenir aussi, sans partir d’un savoir préprogrammé. », a déclaré Micha Heilbron, chercheur en sciences cognitives à l’Université d’Amsterdam (Pays-Bas), dans un article de Quanta Magazine du 3 octobre 2025.

Un apprentissage auto-supervisé

D’autres IA grand public comme ChatGPT ou Gemini analysent les vidéos pixel par pixel. Toutefois, V-JEPA agit dans ce que les chercheurs nomme un « espace latent », c’est à dire un niveau d’abstraction supérieur. Ceci lui permet de comprendre de nombreuses notions relatives aux objets présents sur les images, comme les positions relatives, la morphologie, la continuité temporelle et bien sur, les mouvements et interactions. L’IA est donc capable d’établir des relations temporelles et causales. Il s’agit donc ici d’apprentissage auto-supervisé, puisque l’IA découvre seule les règles de la réalité, puis se construit des représentations internes.

Les scientifiques de Meta ont testé V-JEPA à l’aide du protocole IntPhys, qui est une référence pour le raisonnement physique intuitif visuel. L’IA a obtenu un taux de réussite de 98%, là ou d’autres modèles de vision artificielle comme ViViT (Google) et TimeSformer (Facebook AI) ont à peine dépassé les 50%.

schéma V-JEPA
Source: DR
Crédits : Zhang et al., arXiv., 2024

Un modèle d’IA perfectible

Cependant, certains observateurs affirment que V-JEPA n’a pas encore dépassé le stade de la métacognition. Autrement dit, l’IA n’arrive pas encore à évaluer à quel point son anticipation est fiable. Ceci rappelle réellement un enfant qui devine juste sans savoir à quel moment il peut se tromper, et pour quelle raison. De plus, l’IA a une mémoire de seulement quelques secondes, ce qui l’empêche de comprendre des situations s’installant dans le temps, comme le font naturellement les humains.

Si V-JEPA impressionne techniquement, il n’est pas encore possible d’affirmer que ce modèle d’IA fasse preuve de « conscience », ni même de « compréhension ». Pour l’instant, l’IA ne comprend pas le monde mais parvient tout de même à le modéliser. En attendant, V-JEPA mime en quelque sorte le processus permettant à la conscience d’immerger, notamment la prédiction, l’observation ou encore, la confrontation.

La différence avec l’humain reste énorme, car même si l’IA mime le processus conduisant à la conscience, ce qui représente une base de la cognition chez l’humain n’est qu’une suite d’opérations statistiques sans intentions pour la machine. Autrement dit, l’IA apprend sans savoir qu’elle apprend et évidemment, ignore sa propre existence.

Yohan Demeure

Rédigé par Yohan Demeure

Licencié en géographie, j’aime intégrer dans mes recherches une dimension humaine. Passionné par l’Asie, les voyages, le cinéma et la musique, j’espère attirer votre attention sur des sujets intéressants.