Inutile chiedersi se i sottomarini sanno nuotare 2/3 - Reasoning Model: un termine da interpretare

Gino Tocchetti

Se non sono concetti definiti in modo condiviso quando riferiti agli uomini, che senso ha riferirsi alle macchine con termini come “intelligenza” o “ragionamento”? Per riprendere Dijkstra, non sembra interessante “chiedersi se i sottomarini sono capaci di nuotare”. Eppure, il vocabolario usato dai tecnologi e dai marketer che sviluppano e promuovono l’AI continua a fare largo uso di un linguaggio equivoco, dal termine stesso di Intelligenza Artificiale al più recente “Reasoning Model”. Con Wittgenstein, capiamo che questo uso del linguaggio è esso stesso un gioco che ricorre frequentemente nel confronto con lo sviluppo del progresso in generale, e tecnologico in particolare.

Parte 1) L’idea di ragionamento nella tradizione filosofica: qui.

Parte 2) Reasoning Model: un termine da interpretare: qui.

Parte 3) Una recitazione impeccabile ma piatta: qui.

Reasoning Model: un termine da interpretare

Dal termine stesso di Intelligenza Artificiale al più recente “Reasoning Model”, inizialmente proposto da OpenAI in occasione del lancio di ChatGPT o1, e Anthropic con quello di Claude 3 Sonnet, e poi ripreso con grande risonanza in occasione del lancio di DeepSeek R1 (“Logical Reasoning in Large Language Models. A Survey”, 2024). Con Wittgenstein, capiamo che questo uso del linguaggio è esso stesso un gioco che ricorre frequentemente nel confronto con lo sviluppo del progresso in generale, e tecnologico in particolare.

Anzi, basandosi sui comunicati ufficiali (di OpenAI e Anthropic) è stata ricavata una roadmap in 5 tappe (Nello Cristianini, 2025), che prevede per i LLM (modelli di linguaggio di grandi dimensioni) prima il conseguimento di capacità conversazionali (già acquisito coi “conversatori”), poi capacità di ragionamento (anche questo dato per acquisito nel corso del 2024 coi ”ragionatori”), per passare agli “agenti”, macchine in grado di agire anche per lunghi periodi per eseguire un compito (già costruiti e ora in fase di collaudo), e approdare agli “innovatori” e agli “orchestratori” (stadi ancora da raggiungere).

Dunque la roadmap ufficializza che i modelli ragionano, e anzi lo fanno così bene che ora tutta l’attenzione si è spostata sull’agentificazione. Ma dedichiamo ora ancora qualche sforzo a verificare quale forma di ragionamento viene attribuita ai modelli, e come si distingue da quella umana.

Catene di pensiero e comportamenti emergenti

I Large Language Models come GPT-4, PaLM o DeepSeek-R1 sembrano ragionare meglio quando vengono “invitati” a pensare ad alta voce, producendo passaggi intermedi. Un semplice incantesimo linguistico — “Let’s think step by step” — ed ecco che il modello inizia a costruire una sequenza che imita il ragionamento umano. Il risultato è impressionante: migliorano nelle operazioni aritmetiche, riducono gli errori nelle inferenze e perfino risolvono problemi complessi con una naturalezza disarmante.

Ma si tratta di una banale questione di ridimensionamento del problema da risolvere per poterlo affrontare meglio con le risorse di calcolo disponibili? O è piuttosto la simulazione del nostro modo di ragionare, intendendo che esso stesso consiste in una successione lineare di piccoli passi? Oppure la scomposizione permette di parallelizzare diversi percorsi di elaborazione permettendo così non solo maggiore velocità ma anche una sorta di valutazione, ad un livello di astrazione superiore, di come sta procedendo la generazione della risposta?

Il 2024, un anno di ricerche

Ricostruiamo qui, a grandi linee e senza pretesa di accuratezza minuziosa ed esaustività, la serie di tappe attraverso le quali si è sviluppata rapidamente la ricerca sulla capacità di ragionamento dei LLM, durante l’anno scorso.

Ancora nel 2023, si approcciava il ragionamento operato dai modelli LLM come un processo logico e sistematico di utilizzo di prove ed esperienze per giungere a una conclusione. Si distinguono diversi tipi di utilizzo:

Deduttivo: conclusioni certe a partire da premesse certe.
Induttivo: conclusioni probabili basate su osservazioni.
Abduttivo: inferenze della spiegazione più plausibile.
Analogico: inferenze basate su analogie tra situazioni diverse.

Focalizzando sul ragionamento deduttivo (il più affidabile), ma informale (cioè più adattabile e aperto, ma meno rigoroso e affidabile), che è il più applicato dai modelli LLM, i ricercatori avevano scoperto che

Il ragionamento nei LLMs emerge col crescere della scala e con dimensioni del modello superiori a i 100 miliardi di parametri (oggi, con l’ultimo annuncio di Llama 4 siamo arrivati a 2 trilioni!).
Le tecniche di prompting migliorano sensibilmente la qualità delle risposte su problemi complessi, specialmente in matematica, logica e common sense.
I modelli eseguono un ragionamento informale, spesso privo di robusta coerenza interna, lasciando aperta la questione se comprendano davvero, o semplicemente imitino strutture linguistiche plausibili (“pattern matching”).

(Fonte: “Towards Reasoning in Large Language Models” di Jie Huang e Kevin Chen-Chuan Chang, 2023).

Successivamente, nel 2024, alcuni ricercatori si sono concentrati sul processo interno, approfondendo se e come il pre-training con obiettivo di predizione del token successivo possa sviluppare la capacità di ragionamento. Hanno così dimostrato che l’apprendimento di questa capacità può avvenire attraverso una combinazione pesata di percorsi di ragionamento osservati (“random walks”), e non come lo sviluppo di nuove capacità logiche. I percorsi di ragionamento erano intesi su grafi di conoscenza (per logica) e su grafi di stato (per problemi matematici). In sostanza, non una autonoma capacità di ragionamento, ma l’applicazione di schemi già visti e pesati su base statistica.

Di conseguenza, la capacità di ragionamento risulta fortemente dipendente dalla qualità dell’addestramento, e in particolare dalla presenza di percorsi di ragionamento nel training, anche se impliciti. (Fonte: “Understanding the Reasoning Ability of Language Models”, Wang Amayuelas Zhang et al., 2024).

Un’altro studio ha dimostrato che gli LLM dimostrano buone capacità di ragionamento solo nei problemi che sono simili ai dati su cui sono stati addestrati, confermando il ruolo cruciale di questa fase preliminare. Quando il contesto cambia leggermente (out-of-distribution), anche in modo banale, i modelli faticano o falliscono. (Fonte: “Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models” di Mondorf Plank, 2024).

Sempre approfondendo il processo interno, un altro gruppo di ricercatori ha usato un test particolare (ARC, Abstraction and Reasoning Corpus) che rivela se chi risolve un problema possiede una effettiva capacità di astrazione, composizionalità e generalizzazione (capacità cognitive profonde), che vanno oltre il puro calcolo o la catena logica elementare.

In particolare hanno valutato il comportamento del modello da tre punti di vista principali, mutuati dalla psicologia umana:

Coerenza logica: il ragionamento deve essere ordinato e senza contraddizioni, non solo un “indovinare” il risultato.
Composizionalità: saper costruire soluzioni complesse combinando pezzi più semplici.
Produttività: essere capaci di creare nuove soluzioni, anche senza averle mai viste prima.

Hanno ripetuto diversi esperimenti, chiedendo ai modelli di risolvere gli stessi compiti in modi diversi: ragionando passo per passo (chain of thought), spezzettando i problemi (least-to-most), o provando più alternative (tree of thought).

Per quanto riguarda la coerenza logica, nonostante una migliore accuratezza con CoT, non hanno trovato evidenza di differenze rilevanti tra le tecniche. I modelli si sono mostrati sostanzialmente incapaci di mantenere una coerenza logica e semantica, di organizzare il ragionamento in modo sistematico passo dopo passo, e di creare nuove soluzioni quando si trovavano di fronte a vincoli complessi.

Il problema è dunque intrinseco alla loro capacità di ragionamento, e non è attribuibile solo al prompting. (Fonte: “Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus” di Seungpil Lee, Woochang Sim, Donghyeon Shin et al., 2024 ).

Nel caso specifico della soluzione di problemi di matematica di scuola primaria (GSM8K benchmark), un altro studio ha dimostrato che inizialmente i LLM fallivano perché erano richiesti ragionamenti multistep, non solo associazioni rapide. In questi casi, il semplice suggerimento “Let’s think step by step” portava modelli come GPT-3 (conversazionali) a risolvere meglio problemi complessi, esibendo catene di ragionamento esplicite.

Il paper propone una tassonomia del reasoning nei LLM strutturata in tre fasi operative: la generazione dei passi di ragionamento, la valutazione della loro correttezza e il controllo della profondità e coerenza del processo. Sono stati testati diversi approcci nel prompting per guidare il ragionamento. Anche la valutazione è stata condotta con diverse tecniche, per prevenire la propagazione di errori nei passaggi successivi. I risultati riportati nel caso di Math Word Problems (tipo GSM8K, AQuA, MAWPS), che sono compiti “chiusi”, con regole note, inferenze lineari, che non necessitano di vera creatività o innovazione concettuale, sono che:

Il ragionamento dei LLM resta fragile: i modelli tendono a commettere errori se il processo di reasoning non è ben guidato o controllato. Errori nei primi passi si propagano facilmente lungo tutta la catena di pensiero.
I risultati possono essere migliorati con tecniche come il Chain-of-Thought prompting e il Beam Search ragionato (una strategia di esplorazione di grafi di possibilità che si limitaa considerare i rami con un coefficiente di probabilità maggiore di un valore soglia). Viene aumentata in questo modo la probabilità di ottenere risposte corrette anche su problemi complessi.
Non si tratta ancora di “reasoning autonomo”: i modelli sono capaci di ragionare se guidati, ma non ancora di auto-gestire il proprio processo di ragionamento senza un’impalcatura esterna. (Fonte: “Reasoning with Large Language Models: a Survey”, Aske Plaat, Annie Wong et al., 2024).

Lo stato dell’arte della ricerca scientifica

Man mano che si è focalizzato sempre più sul processo interno, sono stati migliorati gli strumenti di valutazione e resi dinamici i benchmark in modo da impedire addestramenti mirati, sono emerse nuove evidenze.

Recentemente sono state valutate diverse strategie per fronteggiare i deficit nella capacità di ragionamento. I Data-Centric Approaches puntano sulla creazione di dataset curati da esperti (come FOLIO o LeanDojo), sulla generazione di dataset sintetici (es. RulteTaker, FLD×2) e sulla distillazione di dati da altri modelli (LogiCoT, LogicPro). I Model-Centric Approaches invece si basano sull’instruction fine-tuning, per specializzare il modello tramite istruzioni mirate, e sul reinforcement learning, premiando soluzioni corrette ai problemi di ragionamento. Tecniche di decoding e prompting, come Chain of Logic o Maieutic Prompting, guidano il modello nella produzione di catene di pensiero più rigorose. Infine, gli approcci neuro-simbolici integrano reti neurali e sistemi simbolici (es. CLOVER, Logic Agent) per rafforzare la capacità di inferenza.

Sono emersi comunque risultati di successo solo parziale. Con riferimento ai modelli ChatGPT o3 e DeepSeek R1:

Deductive Reasoning: I modelli mostrano miglioramenti, ma spesso mancano di rigore logico completo.
Inductive Reasoning: Buona capacità, ma con sensibilità a variazioni nei dati.
Abductive Reasoning: Più debole, con difficoltà nel generare spiegazioni coerenti in presenza di dati incompleti.
Analogical Reasoning: Emergenza di abilità, ma ancora fragile.

(Fonte: “Logical Reasoning in Large Language Models: A Survey”, Hanmeng Liu, Zhizhang Fu et al., 2025).

Tra i paper più recenti, uno riguarda la dimostrazione che i modelli di linguaggio di grandi dimensioni possono apprendere a ragionare in modo strutturato ed efficace attraverso semplici tecniche di addestramento supervisionato o adattamento parametrico efficiente. Il focus è stato sull’insegnare ai modelli a produrre catene di pensiero estese (Long Chain-of-Thoughts), capaci di integrare riflessione, revisione e correzione durante il processo di ragionamento.

Lo studio evidenzia che bastano appena 17.000 esempi per far compiere un salto qualitativo enorme alle capacità di ragionamento di un modello. Il segreto consiste nell’utilizzo di una tecnica di fine-tuning parametrico efficiente (LoRA, Low-Rank Adaptation), che permette di adattare un LLM aggiornando solo una piccola parte dei suoi parametri, invece di riaddestrare tutto il modello. In questo modo, il modello Qwen2.5–32B-Instruct raggiunge performance competitive con i migliori modelli chiusi come OpenAI o1-preview, rispetto a benchmark matematici e di programmazione complessi, riducendo drasticamente i costi computazionali.

Il metodo impiegato si basa sulla distillazione di dati di alta qualità da modelli già capaci di ragionare, come DeepSeek R1 e QwQ-32B-Preview. Gli autori hanno selezionato problemi difficili, prevalentemente di matematica e coding, verificando automaticamente la correttezza delle soluzioni. Il risultato è un set di dati compatto ma estremamente efficace per trasferire capacità di ragionamento.

Ma una delle evidenze più sorprendenti riguarda l’importanza della struttura del ragionamento rispetto al contenuto specifico. Alterazioni superficiali, come la modifica dei numeri o la rimozione di parole chiave nei ragionamenti, incidono poco sull’efficacia dell’apprendimento. Al contrario, modifiche che distruggono la coerenza logica della sequenza — come il rimescolamento o la cancellazione dei passaggi — causano un degrado netto delle prestazioni.

In sintesi, questo studio fornisce prove concrete che la capacità di ragionamento può essere “distillata” in modo rapido, economico e con una quantità di dati sorprendentemente ridotta. Inoltre, mette in luce che per addestrare modelli davvero capaci non serve tanto curare ogni singolo dettaglio del contenuto, quanto assicurare la solidità e la coerenza della struttura logica interna al ragionamento.

Con il nuovo approccio pragmatico nella costruzione di modelli di intelligenza artificiale dotati di capacità deduttive avanzate, non servono più gigantesche risorse computazionali: bastano buoni esempi e tecniche leggere di adattamento. In questo modo, il ragionamento diventa un’abilità sempre più accessibile, anche fuori dai grandi laboratori industriali. (Fonte: “LLMs Can Easily Learn to Reason from Demonstrations, Dacheng Li, Shiyi Cao et al., 2025).

Risultati e prospettive

Nonostante gli evidenti passi avanti nella comprensione delle proprietà cognitive dei LLM, non è emersa una reale capacità autonoma di ragionamento ad ampio spettro. Le performance migliori sono raggiunte nell’ambito di problemi matematici e ben formalizzati, come era facile aspettarsi.

Spazi di miglioramento sono comunque possibili utilizzando nuove tecniche di auto-controllo, ma appare chiaro che un fattore cruciale e ineludibile viene giocato dalla qualità dell’addestramento, non tanto dal punto di vista della bontà dei dati quanto da quello delle strutture logiche derivabili.

Inoltre, tra le sfide da affrontare nello sviluppo dei LLM, abbiamo la privacy e la governance dei dati, la trasparenza e la spiegabilità. Particolarmente critiche restano l’affidabilità, la sicurezza, e, sopra a tutte, la responsabilità (accountability).

L’affidabilità misura la coerenza e correttezza dei risultati prodotti: ad esempio, evitare che un modello fornisca risposte errate o inconsistenti su compiti sensibili come diagnosi mediche o decisioni finanziarie. Questa è quella più influenzata dalla capacità di ragionamento di cui abbiamo discusso fin qui.
La sicurezza riguarda la capacità del modello di resistere a manipolazioni esterne o utilizzi malevoli, come la creazione di deepfake o l’esecuzione di attacchi di social engineering.
L’accountability (responsabilità) si concentra sulla possibilità di tracciare e attribuire in modo trasparente gli effetti delle azioni del modello, come nel caso della diffusione non intenzionale di contenuti falsi o discriminatori, garantendo la verifica del rispetto di standard etici e normativi.

Infine, sembra però che sia in atto in qualche modo uno shift sul focus della ricerca. In questo momento sembra più interessante sviluppare tecniche che permettono di distillare modelli più piccoli in dimensione e costo, ma sempre con proprietà paragonabili (e a volte perfino migliori) dei colossi dai quali sono derivati. Insieme all’agentificazione, queste linee di sviluppo aprono ad una gamma di applicazioni ben più vasta, e che può quindi rendere l’AI ancora più pervasiva e soprattutto più vantaggiosa dal punto di vista economico.

L’ideale di replicare l’umano e renderlo perfetto

Queste diverse prospettive non possono e non devono portare a concludere che nella roadmap evolutiva dei LLM lo step 2 dei ragionatori è stato completato e superato. Restano sempre degli automi (trasformatori), come Coppélia (La ragazza dagli occhi di smalto), nel balletto pantomimico di Arthur Saint-Léon.

Coppélia viene creata dal vecchio e bizzarro dottor Coppélius, inventore solitario e artigiano di automi, e per lui rappresenta la perfezione, l’ideale irraggiungibile. Dopo un’intricata vicenda di amore e gelosia, tra inganni e smascheramenti, Coppélius viene sconfitto e umiliato, e il suo sogno svanisce. Coppélia, come oggetto, rimane una bambola inanimata, semplicemente privata dell’illusione di essere viva, e di ingannare gli umani.

Segue q ui .

Fonti

Tractatus logico-philosophicus. Con i Quaderni 1914–1916, Ludwig Wittgenstein, (2020) — Einaudi
La scoperta scientifica e il carattere autocorrettivo della scienza, Karl Popper, (2020) — Einaudi
Pensieri lenti e veloci, Daniel Kahneman, (2020) — Mondadori
The Case for Human-AI Interaction as System 0 Thinking, Massimo Chiriatti et al., (2024) — Nature Human Behaviour
Chain of Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei et al., (2022) — arXiv
Towards Advanced Agents, DeepMind, (2024) — DeepMind
Claude Roadmap and Alignment Plan, Anthropic, (2024) — Anthropic
Task-Oriented AI Agents: Architectures and Challenges, Microsoft Research, (2024) — Microsoft Research
Gemini: Building Generalist AI Agents, Google DeepMind, (2024) — arXiv
Towards Reasoning in Large Language Models, Jie Huang, Kevin Chen-Chuan Chang, (2023) — arXiv
Understanding the Reasoning Ability of Language Models: From the Perspective of Reasoning Paths Aggregation, Xinyi Wang, Alfonso Amayuelas et al., (2024) — arXiv
Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus, Seungpil Lee, Woochang Sim et al., (2024) — arXiv
Reasoning with Large Language Models: a Survey, Aske Plaat, Annie Wong et al., (2024) — arXiv
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models, Philipp Mondorf & Barbara Plank, (2024) — arXiv
Logical Reasoning in Large Language Models: A Survey, Hanmeng Liu, Zhizhang Fu et al., (2025) — arXiv
LLMs Can Easily Learn to Reason from Demonstrations, Dacheng Li, Shiyi Cao et al., (2025) — arXiv
Sovrumano. Oltre i limiti della nostra intelligenza, Nello Cristianini, (2025) — Il Mulino
AI “responsabile”: le quattro aree chiave per un futuro sicuro, Carmelina Maurizio, (2024) — Agenda Digitale

Pubblicato il 14 aprile 2025

Gino Tocchetti / Driving Innovation and New Ventures @ Corporate Startup Ecosystem

gino.tocchetti@gmail.com http://www.ginotocchetti.medium.com/