AI makes you smarter but none the wiser: The disconnect between performance and metacognition

Carlo Mazzucchelli

Segnalo all’attenzione die naviganti della nave una nuova ricerca pubblicata sulla rivista Computers in Human Behavior che suggerisce come l'uso di strumenti di IA come ChatGPT permette di migliorare le prestazioni personali e aziendali ma alla lunga finisca per limitare e distorcere la capacità di valutazione, anche delle proprie prestazioni.

La ricerca raccontata nel paper qui segnalato si basa su due studi incentrati sulla soluzione di compiti di ragionamento logico. Il primo studio ha coinvolto 248 persone (tutti statunitensi) alle quali è stato richiesto la soluzione di 20 problemi logici presi dal Law School Admission Test (LSAT), utilizzando un’apposita interfaccia web specializzata predisposta per permettere l’interazione con ChatGPT.

A ogni partecipante al test è stato richiesto di usare la ChatGPT almeno una volta per ogni domanda, per risolvere il problema o semplicemente per fornire un aiuto utile a comprendere la logica del problema. Al termine della sperimentazione è stato chiesto a ogni partecipante di valutare quante fossero le domande alle quali credevano di avere risposto correttamente e di valutare anche il gradiente di fiducia sulle decisioni prese.

I risultati di questo primo studio hanno mostrato un chiaro miglioramento delle prestazioni oggettive. Chi aveva utilizzato ChatGPT ha ottenuto un punteggio maggiore rispetto al gruppo di controllo che sempre si crea in ricerche come queste.

In media, i partecipanti che hanno utilizzato ChatGPT hanno ottenuto un punteggio circa tre punti in più rispetto a un gruppo di controllo storico composto da persone che hanno sostenuto lo stesso test senza assistenza dell'IA.

Per garantire che questi risultati fossero solidi, i ricercatori hanno condotto un secondo studio che ha coinvolto 452 partecipanti suddivisi su due gruppi distinti, uno invitato a usare l’IAm l’altro a non farne uso. In questo secondo esperimento, ai partecipanti è stato detto che avrebbero ricevuto un bonus finanziario se la loro stima del punteggio fosse coincisa con il punteggio reale.

I risultati del secondo studio hanno rispecchiato quello del primo studio.

Abstract

Optimizing human–AI interaction requires users to reflect on their performance critically, yet little is known about generative AI systems’ effect on users’ metacognitive judgments. In two large-scale studies, we investigate how AI usage is associated with users’ metacognitive monitoring and performance in logical reasoning tasks. Specifically, our paper examines whether people using AI to complete tasks can accurately monitor how well they perform. In Study 1, participants (N = 246) used AI to solve 20 logical reasoning problems from the Law School Admission Test. While their task performance improved by three points compared to a norm population, participants overestimated their task performance by four points. Interestingly, higher AI literacy correlated with lower metacognitive accuracy, suggesting that those with more technical knowledge of AI were more confident but less precise in judging their own performance. Using a computational model, we explored individual differences in metacognitive accuracy and found that the Dunning–Kruger effect, usually observed in this task, ceased to exist with AI use. Study 2 (N = 452) replicates these findings. We discuss how AI levels cognitive and metacognitive performance in human–AI interaction and consider the consequences of performance overestimation for designing interactive AI systems that foster accurate self-monitoring, avoid overreliance, and enhance cognitive performance.

Vai al paper per una lettura completa

Pubblicato il 30 dicembre 2025

Carlo Mazzucchelli / ⛵⛵ Leggo, scrivo, viaggio, dialogo e mi ritengo fortunato nel poterlo fare – Co-fondatore di STULTIFERANAVIS

https://www.stultiferanavis.it/gli-autori/carlo