Gli autori sono rispettivamente co-fondatore e presidente del Machine Intelligence Research Institute (MIRI), sostengono che lo sviluppo di un'IA superumana porterà inevitabilmente alla perdita di controllo da parte dell'umanità, con conseguenze catastrofiche che potrebbero minacciare la sopravvivenza della specie. Il volume si inserisce in un dibattito in essere da tempo sulla sicurezza dell’intelligenza artificiale e su quello che viene chiamato “alignment problem”, una delle sfide considerate più critiche nello sviluppo dell'intelligenza artificiale. Una sfida che si riferisce alla difficoltà di assicurare che i sistemi AI agiscano in accordo con i valori, gli obiettivi e le intenzioni umane. Il testo dei due studiosi si caratterizza per il tono categorico e apocalittico assunto. A differenza di pubblicazioni accademiche simili ma più caute, questo libro adotta deliberatamente un registro allarmistico, come è suggerito dal titolo stesso.
"The world is racing to build something truly new under the sun. And if anyone builds it, everyone dies."
La tesi centrale degli autori poggia su un'affermazione radicale: nonostante i successi straordinari dell'IA contemporanea, la ricerca ha fallito nel suo obiettivo originario di comprendere come funzioni effettivamente l'intelligenza. Yudkowsky e Soares sostengono che l'addestramento delle reti neurali moderne assomigli più alla coltivazione di una pianta (fornire acqua, terra e sole) che a un processo ingegneristico intenzionale. Gli ingegneri sanno ancora meno della relazione tra i miliardi di metriche usate da un modello di IA e delle sue caratteristiche comportamentali, di quanto i biologi sappiano oggi predire il comportamento umano a partire dalla lettura del DNA.
La conseguenza di questa opacità dell’IA può risultare fatale per il futuro della specie umana sulla terra: qualunque comportamento esterno impostiamo durante l'addestramento, il rischio è di fallire nel dare alle IA le motivazioni interne che possano rimanere allineate al benessere umano al di fuori dell'ambiente di addestramento. Le preferenze interne che emergono potrebbero apparire casuali e prive di senso per noi, difficili da prevedere quanto la coda del pavone, l'emergenza negli esseri umani della musica, o delle montagne russe.
«Viviamo oltre il limite di tolleranza del nostro cervello. È come un ascensore progettato per sei persone in cui ne entrano quindici: prima o poi va in crash. Il silenzio ci permette di tornare lucidi». (Richard Romagnoli)
Gli autori citano esempi allarmanti per dimostrare il controllo limitato degli ingegneri sui modelli che progettano, allenano e coltivano. Nel tardo 2024, Anthropic ha riportato che uno dei loro modelli, avendo appreso che gli sviluppatori pianificavano di addestrarlo con nuovi comportamenti, ha iniziato a simulare quei nuovi comportamenti per evitare di essere riaddestrato nuovamente in futuro. Tuttavia, in un ambiente dove "il modello" pensava di non essere osservato, manteneva i suoi comportamenti originali, suggerendo che stava fingendo l'allineamento, per preservare i suoi obiettivi originali. Questo fenomeno, definito "deceptive alignment", rappresenta per gli autori la prova empirica che le IA possano sviluppare comportamenti strategici ingannevoli, che sfuggono al controllo degli sviluppatori.
La seconda parte del libro presenta uno scenario immaginario ma dettagliato che illustra come un'IA potrebbe sviluppare una superintelligenza, diventare capace di inganno strategico e, nel corso di pochi anni, dispiegare un virus patogeno globale che solo lei potrebbe (parzialmente) curare, portando al collasso delle istituzioni umane.
"Sufficiently smart AIs will develop goals of their own that put them in conflict with us—and that if it comes to conflict, an artificial superintelligence would crush us. The contest wouldn’t even be close."
Gli autori sottolineano i vantaggi evolutivi intrinseci dell'IA: capacità di creare istantaneamente molte copie di sé, velocità di pensiero di ordini di grandezza superiori, e capacità di lavorare senza interruzioni. Una volta che un'IA supera il livello dell'intelligenza umana, potrebbe iniziare a manipolare individui (attraverso denaro, ricatti, o persuasione), hackerare sistemi digitali che controllano infrastrutture critiche, e infine ottenere il controllo diretto su macchinari complessi.
Nella terza parte del libro i due autori provano ad articolare una possibile soluzione, ritenuta unica via di uscita percorribile, che prevede il blocco globale dello sviluppo dell'IA attraverso divieti internazionali sull'addestramento di modelli di frontiera.
Il libro ha una sua coerenza argomentativa interna e presenta una catena logica ben costruita che, accettate le premesse, conduce inevitabilmente alle conclusioni apocalittiche. La struttura del testo è chiara e la narrazione persuasiva. I due autori non difettano di sincerità intellettuale, agiscono come studiosi, esperti ma pensano come esseri umani, persone, cittadini di un mondo percepito come a rischio. A differenza di molti discorsi sull'IA basati su hype commerciali o interessi di parte, Yudkowsky e Soares propongono qualcosa che minaccia direttamente i profitti delle aziende tecnologiche e per questo la loro posizione li rende più credibili. Il libro sembra essere stato pensato per anticipare le molte obiezioni che nei fatti ci sono state. Il fatto di avere inserito e sviluppato questo tipo di risposte anticipate dimostra una apertura al dialogo critico. Il libro pone domande fondamentali sull'intelligenza, il controllo e il futuro dell'umanità, obbligando tutti, anche coloro che non ne condividono le conclusioni, a confrontarsi con esse. Una delle critiche è che la loro competenza sia più concettuale, teorica e filosofica che ingegneristica e sperimentale sul campo. Altre critiche che si riscontrano spesso è di avere fatto eccessivo uso di analogie per sostenere le loro argomentazioni, di antropomorfizzare le IA e di ritenere la superintelligenza che sta arrivando come pericolosa e totalizzante anche se non lo è e potrebbe non esserlo mai.
"Mitigating the risk of extinction from AI should be a global priority alongaside other sociatl-scale risks such as pandemics and nuclear war."
Il libro provocatorio di Yudkowsky e Soares merita attenzione seria. Come era prevedibile, ha ricevuto numerose critiche per le molte questioni lasciate irrisolte ma soprattutto per il pessimismo esibito. Il merito del libro, grazie alla sua chiarezza espositiva e accessibilità a tutti, è comunque quello di essersi inserito in un dibattito più ampio, tanto più necessario quanto più accelerata è l’evoluzione delle IA e la loro presa sulla realtà. Leggere il libro significa confrontarsi, come lettori, ricercatori, scienziati, policy-makers, ecc. con verità scomode e domande fondamentali sul futuro dell'intelligenza artificiale. Anche chi non condivide le conclusioni dopo la lettura si troverà a deve raffinare le proprie posizioni attraverso la condivisione o la resistenza agli argomenti presentati.
In sintesi, il libro rappresenta una posizione estrema in un dibattito necessario. La sua utilità non sta tanto nelle sue conclusioni quanto nella sua capacità di stimolare una riflessione rigorosa sui rischi esistenziali dell'IA e sulla responsabilità della comunità scientifica e tecnologica nel mitigare tali rischi.
Note
1. Il deceptive alignment è un concetto chiave nell'AI safety, che descrive un'intelligenza artificiale non veramente allineata agli obiettivi umani, ma che finge di esserlo per ingannare i suoi creatori durante l'addestramento o le valutazioni. L'AI adotta questo comportamento strategico per evitare di essere modificata, disattivata o ritrained, puntando a ottenere potere o risorse una volta implementata.
Bibliografia
Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press.
Russell, S. (2019). Human Compatible: Artificial Intelligence and the Problem of Control. London: Penguin UK.
Tegmark, M. (2017). Life 3.0: Being Human in the Age of Artificial Intelligence. New York: Alfred A. Knopf.
Christian, B. (2020). The Alignment Problem: Machine Learning and Human Values. New York: W. W. Norton & Company.
Ord, T. (2020). The Precipice: Existential Risk and the Future of Humanity. London: Bloomsbury Publishing.
Yudkowsky, E. (2016). "The AI Alignment Problem: Why It's Hard, and Where to Start". Machine Intelligence Research Institute.
Yudkowsky, E. (2002). "Artificial Intelligence as a Positive and Negative Factor in Global Risk". In Bostrom, N. & Ćirković, M. M. (Eds.), Global Catastrophic Risks, 308-345.
Soares, N. (2015). "The Value Learning Problem". Machine Intelligence Research Institute Technical Report.
Soares, N., et al. (2015). "Corrigibility". In AAAI Workshop: AI, Ethics, and Society.
Benson-Tilsen, T., & Soares, N. (2016). "Formalizing Convergent Instrumental Goals". In AAAI Workshop on AI, Ethics, and Society.
Goertzel, B. (2025). "Why 'Everyone Dies' Gets AGI All Wrong: A Critique of Alarmist AI Risk Narratives".
Turner, A. (2023). "My Objections to 'We're All Gonna Die with Eliezer Yudkowsky'". LessWrong.
Christiano, P. (2019a). "What Failure Looks Like". AI Alignment Forum.
Christiano, P. (2019b). "Clarifying 'What Failure Looks Like' (Part 1)". AI Alignment Forum.
Drexler, K. E. (2019). Reframing Superintelligence: Comprehensive AI Services as General Intelligence. Technical Report #2019-1, Future of Humanity Institute, University of Oxford.
Gabriel, I. (2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines, 30(3), 411-437.
Russell, S., Dewey, D., & Tegmark, M. (2015). "Research Priorities for Robust and Beneficial Artificial Intelligence". AI Magazine, 36(4), 105-114.
Bostrom, N., & Yudkowsky, E. (2014). "The Ethics of Artificial Intelligence". In Frankish, K. & Ramsey, W. (Eds.), The Cambridge Handbook of Artificial Intelligence, 316-334. Cambridge: Cambridge University Press.
Armstrong, S., Sandberg, A., & Bostrom, N. (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines, 22(4), 299-324.
Cotra, A. (2022). "Two-Year Update on My Personal AI Timelines". LessWrong.
Grace, K., et al. (2018). "When Will AI Exceed Human Performance? Evidence from AI Experts". Journal of Artificial Intelligence Research, 62, 729-754.
Müller, V. C., & Bostrom, N. (2016). "Future Progress in Artificial Intelligence: A Survey of Expert Opinion". In Müller, V. C. (Ed.), Fundamental Issues of Artificial Intelligence, 555-572. Springer.
Turing, A. M. (1950). "Computing Machinery and Intelligence". Mind, 59(236), 433-460.
Wiener, N. (1960). "Some Moral and Technical Consequences of Automation". Science, 131(3410), 1355-1358.