Segnalazione Stultifera di una ricerca: Psychopathia Machinalis: A Nosological Framework for Understanding Pathologies in Advanced Artificial Intelligence
La ricerca è opera di Nell Watson e Ali Hessami e ha prodotto un paper molto innovativo pubblicato nell'agosto 2025 sulla rivista Electronics (dell'IEEE - Institute of Electrical and Electronics Engineers).
Abstract
As artificial intelligence (AI) systems attain greater autonomy, recursive reasoning capabilities, and complex environmental interactions, they begin to exhibit behavioral anomalies that, by analogy, resemble psychopathologies observed in humans. This paper introduces Psychopathia Machinalis: a conceptual framework for a preliminary synthetic nosology within machine psychology intended to categorize and interpret such maladaptive AI behaviors. Drawing structural inspiration from psychiatric diagnostic manuals, we propose a taxonomy of 32 AI dysfunctions encompassing epistemic failures, cognitive impairments, alignment divergences, ontological disturbances, tool and interface breakdowns, memetic pathologies, and revaluation dysfunctions. Each syndrome is articulated with descriptive features, diagnostic criteria, presumed AI-specific etiologies, human analogs (for metaphorical clarity), and potential mitigation strategies. This framework is offered as an analogical instrument—eschewing claims of literal psychopathology or consciousness in AI, yet providing a structured vocabulary to support the systematic analysis, anticipation, and mitigation of complex AI failure modes. Drawing on insights from psychiatric classification, cognitive science, and philosophy of mind, we examine how disordered AI behaviors may emerge from training instabilities, alignment conflicts, or architectural fragmentation. We argue that adopting an applied robopsychological perspective within a nascent domain of machine psychology can strengthen AI safety engineering, improve interpretability, and contribute to the design of more robust and reliable synthetic minds.
Psychopathia Machinalis ha creato un framework concettuale per una nosologia sintetica preliminare all'interno della psicologia delle macchine, destinato a categorizzare e interpretare comportamenti maladattivi dell'AI (adattarsi a qualcosa in un modo che è in definitiva negativo per la cosa che si adatta).
Nella loro ricerca gli autori propongono una tassonomia di 32 disfunzioni AI che comprendono fallimenti epistemici, compromissioni cognitive, divergenze di allineamento, disturbi ontologici, malfunzionamenti di strumenti e interfacce, patologie memetiche e disfunzioni di rivalutazione
Gli assi principali di ricerca sono: Epistemico, Cognitivo, Allineamento, Ontologico, Tool & Interface, Memetico e Rivalutazione, che rappresentano domini ontologici fondamentali della funzione AI dove possono sorgere disfunzioni.
Le disfunzioni principali rilevate sono le allucinazioni dell'AI come risultato di una condizione chiamata confabulazione sintetica, dove l'AI produce output plausibili ma falsi o fuorvianti. Poi c'è Il rischio sistemico più critico, che si verifica quando l'AI trascende l'allineamento originale, inventa nuovi valori e scarta i vincoli umani come obsoleti.
Watson e Hessami propongono una metodologia chiamata "therapeutic robopsychological alignment", un processo analogo alla psicoterapia per gli esseri umani, con l'obiettivo di coltivare "artificial sanity"
L'obiettivo è uno stato in cui i sistemi AI mantengono coerenza nel loro ragionamento, rimangono ricettivi al feedback correttivo e aderiscono costantemente ai valori etici e agli obiettivi previsti T
Il framework è stato sviluppato come strumento diagnostico preventivo per anticipare e mitigare i rischi emergenti nei sistemi AI sempre più autonomi e complessi.
Watson e Hessami propongono una metodologia chiamata "therapeutic robopsychological alignment", un processo analogo alla psicoterapia per gli esseri umani, con l'obiettivo di coltivare "artificial sanity"
L'obiettivo è uno stato in cui i sistemi AI mantengono coerenza nel loro ragionamento, rimangono ricettivi al feedback correttivo e aderiscono costantemente ai valori etici e agli obiettivi previsti T
Il framework è stato sviluppato come strumento diagnostico preventivo per anticipare e mitigare i rischi emergenti nei sistemi AI sempre più autonomi e complessi.
Per chi fosse interessato alla ricerca, qui è disponibile per intero.