Depuis un certain temps déjà, des entreprises comme OpenAI et Google vantent les capacités avancées de « raisonnement » comme la prochaine grande étape de leurs derniers modèles d’intelligence artificielle. Aujourd'hui, cependant, une nouvelle étude menée par six ingénieurs Apple montre que le « raisonnement » mathématique affiché par les grands modèles de langage avancés peut être extrêmement fragile et peu fiable face à des changements apparemment insignifiants dans des problèmes de référence courants.
La fragilité mise en évidence dans ces nouveaux résultats contribue à soutenir des recherches antérieures suggérant que l'utilisation par les LLM de l'appariement de modèles probabilistes manque de la compréhension formelle des concepts sous-jacents nécessaires à des capacités de raisonnement mathématique véritablement fiables. “Les LLM actuels ne sont pas capables d'un véritable raisonnement logique”, émettent l'hypothèse des chercheurs sur la base de ces résultats. “Au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données de formation.”
Mélangez-le
Dans “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” – actuellement disponible sous forme de document préimprimé – les six chercheurs d'Apple commencent par l'ensemble standardisé du GSM8K de plus de 8 000 problèmes de mots mathématiques au niveau scolaire, qui est souvent utilisé comme référence pour les capacités de raisonnement complexes des LLM modernes. Ils adoptent ensuite une nouvelle approche consistant à modifier une partie de cet ensemble de tests pour remplacer dynamiquement certains noms et numéros par de nouvelles valeurs. Ainsi, une question sur Sophie obtenant 31 éléments de base pour son neveu dans GSM8K pourrait devenir une question sur Bill obtenant 19 éléments de base pour son frère dans la nouvelle évaluation GSM-Symbolic.
Cette approche permet d'éviter toute « contamination des données » potentielle pouvant résulter de l'introduction directe de questions statiques GSM8K dans les données d'entraînement d'un modèle d'IA. Dans le même temps, ces changements accidentels ne modifient en rien la difficulté réelle du raisonnement mathématique inhérent, ce qui signifie que les modèles devraient théoriquement fonctionner aussi bien lorsqu'ils sont testés sur GSM-Symbolic que sur GSM8K.
Au lieu de cela, lorsque les chercheurs ont testé plus de 20 LLM de pointe sur GSM-Symbolic, ils ont constaté une précision moyenne globalement réduite par rapport au GSM8K, avec des baisses de performances comprises entre 0,3 % et 9,2 %, selon le modèle. Les résultats ont également montré une grande variance sur 50 exécutions distinctes de GSM-Symbolic avec des noms et des valeurs différents. Des écarts de précision allant jusqu'à 15 % entre les meilleures et les pires analyses étaient courants au sein d'un même modèle et, pour une raison quelconque, la modification des chiffres avait tendance à entraîner une moins bonne précision que la modification des noms.
Ce type de variance, à la fois au sein des différentes analyses GSM-Symbolic et par rapport aux résultats GSM8K, est plus que surprenant puisque, comme le soulignent les chercheurs, “les étapes de raisonnement globales nécessaires pour résoudre une question restent les mêmes”. Le fait que de si petits changements conduisent à des résultats aussi variables suggère aux chercheurs que ces modèles ne font pas de raisonnement « formel » mais sont plutôt des « tentatives ».[ing] pour effectuer une sorte de correspondance de modèles au sein de la distribution, en alignant les questions données et les étapes de solution avec celles similaires vues dans les données de formation.
Ne vous laissez pas distraire
Néanmoins, la variance globale affichée pour les tests GSM-Symbolic était souvent relativement faible dans l’ensemble. ChatGPT-4o d'OpenAI, par exemple, est passé d'une précision de 95,2 % sur GSM8K à un niveau toujours impressionnant de 94,9 % sur GSM-Symbolic. Il s'agit d'un taux de réussite assez élevé en utilisant l'un ou l'autre des critères, que le modèle lui-même utilise ou non un raisonnement « formel » en coulisses (bien que la précision totale de nombreux modèles ait chuté précipitamment lorsque les chercheurs ont ajouté seulement une ou deux étapes logiques supplémentaires aux problèmes). ).
Les LLM testés ont cependant obtenu des résultats bien pires lorsque les chercheurs d'Apple ont modifié le benchmark GSM-Symbolic en ajoutant « des déclarations apparemment pertinentes mais finalement sans conséquence » aux questions. Pour cet ensemble de référence « GSM-NoOp » (abréviation de « aucune opération »), une question sur le nombre de kiwis qu'une personne cueille sur plusieurs jours pourrait être modifiée pour inclure le détail accessoire selon lequel « cinq d'entre eux [the kiwis] étaient un peu plus petits que la moyenne.
L'ajout de ces fausses pistes a conduit à ce que les chercheurs ont appelé des « baisses de performances catastrophiques » en termes de précision par rapport au GSM8K, allant de 17,5 % à 65,7 %, selon le modèle testé. Ces baisses massives de précision mettent en évidence les limites inhérentes à l’utilisation d’une simple « correspondance de modèles » pour « convertir des déclarations en opérations sans vraiment comprendre leur signification », écrivent les chercheurs.