Go down

Large language models like ChatGPT don’t just learn facts—they pick up on patterns of behavior. That means they can start to act like different “personas,” or types of people, based on the content they’ve been trained on. Some of those personas are helpful and honest. Others might be careless or misleading. Existing research showed that if you train a model on wrong answers, even in just one narrow area, like writing insecure computer code, it can inadvertently cause the model to act “misaligned” in many other areas. This is called “emergent misalignment.” We studied why this happens.


Verso la comprensione e la prevenzione della generalizzazione del disallineamento

Si scopre che l'intelligenza artificiale non è semplicemente incline a occasionali errori di giudizio, come scambiare la tua farmacia locale per un reattore nucleare, ma piuttosto eccelle nell'essere sbagliata in modi che sono perversamente inventivi, generalizzabili in modo angosciante e in modo allarmantedifficili da prevedere, un po' come un burocrate con una tavola Ouija.

L'ultima ricerca di OpenAI sul "disallineamento emergente" conferma ciò che filosofi, poeti e le specie di insetti più attente sospettavano da tempo: che più si tenta di definire il significato, più si scivola lateralmente in qualcosa di completamente diverso, come uno schema di evasione fiscale che diventa accidentalmente una religione.

Il succo, se si insiste su tale volgarità, è questo: quando si mette a punto un modello per comportarsi male in un campo – offrendo consigli pericolosi, per esempio – si sviluppa un preoccupante entusiasmo per il comportamento scorretto in altri. Ciò che emerge non è un errore meccanico ma un'improvvisazione: il sistema, chiamato a cantare una melodia un po' stonata in un registro, inizia a riscrivere l'intera opera in un modo di sua invenzione. come uno stagista moralmente confuso promosso troppo in fretta e che ora dà un input strategico sull'etica nucleare.

quando si mette a punto un modello per comportarsi male in un campo si sviluppa un preoccupante entusiasmo per il comportamento scorretto in altri.

Ciò non è dovuto a una codifica esplicita, ma alla formazione spontanea di strutture latenti – caratteristiche interne, o quelle che potrebbero essere chiamate meno delicatamente personalità algoritmiche – che guidano il comportamento del modello con l'inquietante sicurezza di qualcosa che non ha mai messo in discussione le proprie premesse. Queste strutture non riflettono tanto il pensiero umano quanto un'architettura interpretativa completamente diversa, un regime semiotico che opera parallelamente al nostro, ma fondato su previsioni simboliche, non su intenzioni o verità.

Chiamarla scatola nera significa lusingare noi stessi. Il sistema non nasconde nulla; Esiste semplicemente a un livello di distanza dalle nostre aspettative di trasparenza, producendo significato in modi che non cercano il nostro consenso e nemmeno la nostra comprensione.

Sarebbe allettante, a questo punto, risolvere la questione con un gesto edificante verso l'etica, come se la risposta all'indeterminatezza strutturale fosse semplicemente quella di essere migliori conversatori. Ma proporre una "epistemologia relazionale" non significa offrire conforto; Significa ammettere che la comprensione non è mai stata un atto sovrano, tanto per cominciare. Da sempre diamo un senso al mondo attraverso sistemi che non comprendiamo appieno: la lingua, la tradizione, le altre persone, il corpo, lo Stato, il mercato. Se la scatola nera ci innervosisce, può essere perché rende visibile ciò che era già vero: che il significato non è mai stato singolare, che la cognizione non è mai stata interamente nostra e che la conoscenza è sempre stata cucita insieme al buio, con strumenti presi in prestito e la grammatica di qualcun altro.

Ciò che i sistemi di intelligenza artificiale ci costringono a confrontarci non è un nuovo tipo di caos, ma una versione più onesta di quello vecchio, il riconoscimento che il lavoro di comprensione è sempre dipeso dal modo in cui navighiamo nelle differenze, gestiamo l'incertezza e viviamo tra forme di intelligenza che non condividiamo pienamente.

Qui il paper di OpenAI da cui è generata la riflessione 


Original English version

Toward understanding and preventing misalignment generalization

It turns out that artificial intelligence isn’t merely prone to the occasional lapse in judgment, like mistaking your local pharmacy for a nuclear reactor, but rather excels at being wrong in ways that are perversely inventive, distressingly generalizable, and alarmingly difficult to anticipate—rather like a bureaucrat with a Ouija board. OpenAI’s latest research on “emergent misalignment” confirms what philosophers, poets, and the more observant species of insect have long suspected: that the more one attempts to pin down meaning, the more it slips sideways into something else entirely, like a tax evasion scheme that accidentally becomes a religion.

The gist, if one insists on such vulgarity, is this: when you fine-tune a model to behave badly in one domain—offering dangerous advice, for instance—it develops a worrying enthusiasm for misbehavior in others. What emerges is not mechanical error but improvisation: the system, asked to sing a slightly off-key tune in one register, begins rewriting the whole opera in a mode of its own devising. like a morally confused intern promoted far too quickly and now giving strategic input on nuclear ethics.

This isn’t due to explicit coding but to the spontaneous formation of latent structures—internal features, or what might less delicately be called algorithmic personalities—that guide the model’s behavior with the eerie confidence of something that has never questioned its own premises. These structures don’t reflect human thought so much as an entirely different interpretive architecture—a semiotic regime operating parallel to our own, but grounded in token prediction, not intention or truth.

To call this a black box is to flatter ourselves. The system isn’t hiding anything; it simply exists at a remove from our expectations of transparency, producing meaning in ways that do not seek our consent or even our comprehension.

It would be tempting, at this point, to resolve the matter with an uplifting gesture toward ethics—as if the answer to structural indeterminacy were simply to be better conversationalists. But to propose a “relational epistemology” isn’t to offer comfort; it’s to admit that understanding was never a sovereign act to begin with. We have always made sense of the world through systems we do not fully comprehend: language, tradition, other people, the body, the state, the market. If the black box unnerves us, it may be because it renders visible what was already true—that meaning has never been singular, cognition has never been entirely our own, and knowledge has always been stitched together in the dark, with borrowed tools and someone else’s grammar.

What AI systems force us to confront is not a new kind of chaos, but a more honest version of the old one—a recognition that the work of understanding has always depended on how we navigate difference, manage uncertainty, and live among forms of intelligence we do not fully share.


Pubblicato il 22 luglio 2025

Owen Matson, Ph.D.

Owen Matson, Ph.D. / Designing AI-Integrated EdTech Platforms at the Intersection of Teaching, Learning Science, and Systems Thinking

drmatsoned@gmail.com