LeWorldModel, le nouveau modèle de Yann LeCun, apprend à comprendre le monde physique à partir de pixels bruts avec seulement 15 millions de paramètres. Une percée qui valide sa vision d'une IA au-delà des LLM, portée par le milliard de dollars levé par AMI Labs.

Pas encore de commentaire. Lancez la discussion !
Yann LeCun, prix Turing et ancien directeur scientifique de l'IA chez Meta, vient de franchir une étape décisive dans sa quête d'une intelligence artificielle qui comprend véritablement le monde physique. Son équipe de recherche, composée de scientifiques de Mila, NYU, Samsung et Brown University, a publié LeWorldModel (LeWM), le premier modèle basé sur l'architecture JEPA capable de s'entraîner de bout en bout directement à partir de pixels bruts. Un exploit technique qui concrétise enfin la vision que LeCun défend depuis des années : l'IA doit apprendre en observant le monde, pas en lisant du texte.
Là où les grands modèles de langage comptent des centaines de milliards de paramètres, LeWorldModel n'en utilise que 15 millions. Malgré cette frugalité remarquable, les résultats sont impressionnants : le modèle représente les observations avec environ 200 fois moins de tokens que les modèles fondation classiques, et planifie ses actions jusqu'à 48 fois plus vite. Sur le benchmark robotique Push-T, il atteint un taux de réussite de 96%, tout en étant entraînable sur un seul GPU en quelques heures. LeWM est aussi capable de détecter des événements physiquement impossibles, ce qui suggère l'émergence d'une forme rudimentaire de raisonnement de bon sens.
Le véritable tour de force de LeWorldModel est d'avoir résolu ce que les chercheurs appellent l'effondrement des représentations, un problème qui paralysait les architectures JEPA depuis leurs débuts. Jusqu'ici, les modèles avaient tendance à converger vers des sorties constantes et triviales, atteignant une erreur de prédiction nulle sans rien apprendre de significatif. Pour contourner ce piège, il fallait recourir à des astuces complexes et des heuristiques fragiles. L'équipe de LeCun a trouvé une solution élégante baptisée SIGReg (Sketched-Isotropic-Gaussian Regularizer), un régularisateur qui force les représentations latentes à suivre une distribution gaussienne isotrope. Résultat : un entraînement stable, simple et reproductible, sans les artifices habituels.
Cette percée académique arrive à un moment stratégique. Le 9 mars dernier, AMI Labs, la startup cofondée par LeCun après son départ de Meta, a bouclé une levée de fonds de 1,03 milliard de dollars pour une valorisation de 3,5 milliards, la plus grosse levée seed jamais réalisée en Europe. Soutenu par Samsung, Nvidia, Toyota et Jeff Bezos, AMI Labs ambitionne de transformer cette recherche en applications industrielles concrètes dans la robotique, la santé et l'industrie. Alexandre LeBrun, ancien CEO de Nabla, dirige les opérations depuis Paris, avec des équipes à New York, Montréal et Singapour.
Pour LeCun, les grands modèles de langage sont une impasse. Il les qualifie de simples "perroquets" qui génèrent du texte plausible sans comprendre la réalité physique ni la causalité. Sa vision alternative est radicalement différente : une IA qui apprend comme un enfant ou un chat domestique, en observant le monde à travers des données sensorielles à haut débit (vidéo, son, capteurs) plutôt qu'en ingérant du texte. LeWorldModel valide cette approche en démontrant qu'un modèle léger, entraîné sur des pixels, peut développer une compréhension physique du monde que les LLM les plus massifs ne possèdent pas. Reste à savoir si AMI Labs parviendra à transformer cette promesse scientifique en produits concrets, mais une chose est certaine : la course aux "modèles du monde" est bel et bien lancée, et Yann LeCun mène la charge.