Les modèles d’IA d’aujourd’hui se souviennent-ils, pensent-ils, planifient-ils et raisonnent-ils réellement, tout comme le ferait un cerveau humain ? Certains laboratoires d'IA voudraient vous faire croire que c'est le cas, mais selon Yann LeCun, scientifique en chef de l'IA de Meta, la réponse est non. Il pense cependant que nous pourrions y parvenir d’ici une dizaine d’années, en adoptant une nouvelle méthode appelée « modèle mondial ».
Plus tôt cette année, OpenAI a publié une nouvelle fonctionnalité appelée « mémoire » qui permet à ChatGPT de « se souvenir » de vos conversations. La dernière génération de modèles de la startup, o1, affiche le mot « penser » tout en générant une sortie, et OpenAI affirme que les mêmes modèles sont capables de « raisonnement complexe ».
Tout cela donne l’impression que nous sommes assez proches d’AGI. Cependant, lors d'une récente conférence au Hudson Forum, LeCun a sapé les optimistes de l'IA, tels que le fondateur de xAI, Elon Musk, et le co-fondateur de Google DeepMind, Shane Legg, qui suggèrent que l'IA au niveau humain est à nos portes.
« Nous avons besoin de machines qui comprennent le monde ; [machines] qui peuvent se souvenir des choses, qui ont de l'intuition, du bon sens, des choses qui peuvent raisonner et planifier au même niveau que les humains », a déclaré LeCun lors de la conférence. “Malgré ce que vous avez pu entendre de la part de certaines des personnes les plus enthousiastes, les systèmes d'IA actuels ne sont pas capables de tout cela.”
LeCun affirme que les grands modèles de langage actuels, comme ceux qui alimentent ChatGPT et Meta AI, sont loin d'être « une IA de niveau humain ». Il faudra peut-être attendre « des années, voire des décennies » à l’humanité pour parvenir à un tel objectif, a-t-il déclaré plus tard. (Cela n'empêche pas son patron, Mark Zuckerberg, de lui demander quand l'AGI aura lieu.)
La raison est simple : ces LLM fonctionnent en prédisant le prochain jeton (généralement quelques lettres ou un mot court), et les modèles d'image/vidéo d'aujourd'hui prédisent le prochain pixel. En d’autres termes, les modèles de langage sont des prédicteurs unidimensionnels et les modèles d’image/vidéo d’IA sont des prédicteurs bidimensionnels. Ces modèles sont devenus très efficaces pour prédire dans leurs dimensions respectives, mais ils ne comprennent pas vraiment le monde tridimensionnel.
Pour cette raison, les systèmes d’IA modernes ne peuvent pas effectuer des tâches simples comme la plupart des humains. LeCun note comment les humains apprennent à débarrasser une table à l’âge de 10 ans et à conduire une voiture à 17 ans – et apprennent les deux en quelques heures. Mais même les systèmes d’IA les plus avancés au monde, fondés sur des milliers ou des millions d’heures de données, ne peuvent pas fonctionner de manière fiable dans le monde physique.
Afin de réaliser des tâches plus complexes, LeCun suggère que nous devons construire des modèles tridimensionnels capables de percevoir le monde qui vous entoure et centrés sur un nouveau type d’architecture d’IA : les modèles mondiaux.
« Un modèle du monde est votre modèle mental de la façon dont le monde se comporte », a-t-il expliqué. “Vous pouvez imaginer une séquence d'actions que vous pourriez entreprendre, et votre modèle du monde vous permettra de prédire quel sera l'effet de la séquence d'actions sur le monde.”
Considérez le « modèle mondial » dans votre propre tête. Par exemple, imaginez que vous regardez une chambre en désordre et que vous voulez la rendre propre. Vous pouvez imaginer à quel point ramasser tous les vêtements et les ranger ferait l’affaire. Vous n'avez pas besoin d'essayer plusieurs méthodes ni d'apprendre d'abord à nettoyer une pièce. Votre cerveau observe l’espace tridimensionnel et crée un plan d’action pour atteindre votre objectif du premier coup. Ce plan d’action est la sauce secrète promise par les modèles mondiaux de l’IA.
Une partie de l’avantage ici réside dans le fait que les modèles mondiaux peuvent absorber beaucoup plus de données que les LLM. Cela les rend également gourmands en calcul, c'est pourquoi les fournisseurs de cloud se précipitent pour s'associer avec des sociétés d'IA.
Les modèles mondiaux sont la grande idée que plusieurs laboratoires d’IA recherchent désormais, et le terme devient rapidement le prochain mot à la mode pour attirer des fonds de capital-risque. Un groupe de chercheurs très réputés en IA, dont Fei-Fei Li et Justin Johnson, vient de lever 230 millions de dollars pour leur startup, World Labs. La « marraine de l’IA » et son équipe sont également convaincus que les modèles mondiaux débloqueront des systèmes d’IA nettement plus intelligents. OpenAI décrit également son générateur vidéo Sora inédit comme un modèle mondial, mais n'est pas entré dans les détails.
LeCun a présenté une idée visant à utiliser des modèles mondiaux pour créer une IA au niveau humain dans un article de 2022 sur « l’IA axée sur les objectifs », bien qu’il note que le concept a plus de 60 ans. En bref, une représentation de base du monde (comme une vidéo d'une pièce sale, par exemple) et de la mémoire sont introduites dans un modèle du monde. Ensuite, le modèle mondial prédit à quoi ressemblera le monde sur la base de ces informations. Ensuite, vous donnez au modèle mondial des objectifs, y compris un état modifié du monde que vous aimeriez atteindre (comme une salle blanche) ainsi que des garde-fous pour garantir que le modèle ne nuise pas aux humains pour atteindre un objectif (ne pas tuer). moi en train de nettoyer ma chambre, s'il vous plaît). Le modèle mondial trouve ensuite une séquence d’actions pour atteindre ces objectifs.
Le laboratoire de recherche à long terme de Meta sur l'IA, FAIR ou Fundamental AI Research, travaille activement à la création de modèles d'IA et de monde axés sur les objectifs, selon LeCun. FAIR travaillait auparavant sur l'IA pour les produits à venir de Meta, mais LeCun affirme que le laboratoire s'est orienté ces dernières années vers la recherche à long terme sur l'IA. LeCun dit que FAIR n'utilise même pas les LLM de nos jours.
Les modèles mondiaux sont une idée intrigante, mais LeCun dit que nous n'avons pas fait beaucoup de progrès pour concrétiser ces systèmes. Il y a beaucoup de problèmes très difficiles à résoudre à partir de là où nous en sommes aujourd'hui, et il dit que c'est certainement plus compliqué que nous ne le pensons.
“Il faudra des années avant que tout fonctionne ici, voire une décennie”, a déclaré Lecun. “Mark Zuckerberg n'arrête pas de me demander combien de temps cela va prendre.”