Les démonstrations d’agents IA peuvent sembler époustouflantes, mais faire en sorte que la technologie fonctionne de manière fiable et sans erreurs gênantes (ou coûteuses) dans la vie réelle peut être un défi. Les modèles actuels peuvent répondre aux questions et converser avec une compétence presque humaine, et constituent l’épine dorsale des chatbots tels que ChatGPT d’OpenAI et Gemini de Google. Ils peuvent également effectuer des tâches sur des ordinateurs lorsqu’on leur donne une simple commande en accédant à l’écran de l’ordinateur ainsi qu’à des périphériques d’entrée comme un clavier et un trackpad, ou via des interfaces logicielles de bas niveau.
Anthropic affirme que Claude surpasse les autres agents d’IA sur plusieurs critères clés, notamment SWE-bench, qui mesure les compétences en développement logiciel d’un agent, et OSWorld, qui évalue la capacité d’un agent à utiliser un système d’exploitation informatique. Les affirmations doivent encore être vérifiées de manière indépendante. Anthropic affirme que Claude exécute correctement les tâches dans OSWorld 14,9 % du temps. C’est bien en dessous des humains, qui obtiennent généralement un score d’environ 75 %, mais considérablement supérieur à celui des meilleurs agents actuels, y compris le GPT-4 d’OpenAI, qui réussissent environ 7,7 % du temps.
Anthropic affirme que plusieurs sociétés testent déjà la version agent de Claude. Cela inclut Canva, qui l’utilise pour automatiser les tâches de conception et d’édition, et Replit, qui utilise le modèle pour les tâches de codage. Parmi les autres premiers utilisateurs figurent The Browser Company, Asana et Notion.
Ofir Press, chercheur postdoctoral à l’Université de Princeton qui a contribué au développement du banc SWE, affirme que l’IA agentique a tendance à manquer de capacité à planifier à long terme et a souvent du mal à se remettre des erreurs. “Afin de montrer leur utilité, nous devons obtenir de solides performances sur des critères difficiles et réalistes”, dit-il, comme la planification fiable d’un large éventail de voyages pour un utilisateur et la réservation de tous les billets nécessaires.
Kaplan note que Claude peut déjà résoudre étonnamment bien certaines erreurs. Face à une erreur de terminal lors de la tentative de démarrage d’un serveur Web, par exemple, le modèle a su réviser sa commande pour la corriger. Il s’est également avéré qu’il devait activer les fenêtres contextuelles lorsqu’il se retrouvait dans une impasse en naviguant sur le Web.
De nombreuses entreprises technologiques se précipitent désormais pour développer des agents d’IA alors qu’elles recherchent des parts de marché et une notoriété. En fait, il ne faudra peut-être pas longtemps avant que de nombreux utilisateurs disposent d’agents à portée de main. Microsoft, qui a investi plus de 13 milliards de dollars dans OpenAI, affirme tester des agents capables d’utiliser des ordinateurs Windows. Amazon, qui a investi massivement dans Anthropic, étudie comment les agents pourraient recommander et éventuellement acheter des produits à ses clients.
Sonya Huang, partenaire de la société de capital-risque Sequoia qui se concentre sur les entreprises d’IA, affirme que malgré tout l’enthousiasme suscité par les agents d’IA, la plupart des entreprises ne font en réalité que renommer les outils basés sur l’IA. S’adressant à WIRED avant l’actualité d’Anthropic, elle affirme que la technologie fonctionne actuellement mieux lorsqu’elle est appliquée dans des domaines restreints tels que le travail lié au codage. « Vous devez choisir des espaces problématiques dans lesquels si le modèle échoue, ce n’est pas grave », dit-elle. « Ce sont les domaines problématiques dans lesquels de véritables entreprises natives d’agents surgiront. »
L’un des principaux défis de l’IA agentique est que les erreurs peuvent être bien plus problématiques qu’une réponse confuse d’un chatbot. Anthropic a imposé certaines contraintes sur ce que Claude peut faire, par exemple limiter sa capacité à utiliser la carte de crédit d’une personne pour acheter des choses.
Selon Press de l’Université de Princeton, si les erreurs peuvent être suffisamment évitées, les utilisateurs pourraient apprendre à voir l’IA – et les ordinateurs – d’une manière complètement nouvelle. «Je suis très enthousiasmé par cette nouvelle ère», dit-il.