Go down

Il presente testo si propone di dimostrare la natura intrinsecamente intelligente dell'Autoencoder, analizzandone l'architettura non come un semplice strumento di calcolo, ma come un modello di sintesi cognitiva. Attraverso una scomposizione dettagliata delle sue fasi — dalla distillazione operata dall'Encoder alla rigenerazione dell'archetipo nel Decoder — viene illustrato come questa IA sia in grado di apprendere autonomamente le leggi fisiche sottostanti ai dati. Ci si riferirà, per esemplificarne l'uso, alla spettroscopia.
Il punto centrale della dimostrazione risiede nella capacità del modello di mappare la realtà complessa in uno Spazio Latente (bottleneck), dove il rumore viene eliminato per via strutturale e non statistica. Viene introdotto e definito il concetto di Pseudo-Spettro come proiezione del centroide di tale spazio, provando che l'Autoencoder non si limita a "pulire" l'input, ma ne ricostruisce la verità fisica. L'analisi comparativa tra diverse architetture (Dense, Conv1D, Transformer) serve a documentare come la consapevolezza nella scelta del modello permetta di estrarre informazioni cruciali, trasformando l'IA in un validatore scientifico trasparente e interpretabile.


Introduzione

Un Autoencoder non è un semplice software di calcolo, ma una specifica architettura di rete neurale artificiale concepita per l'apprendimento non supervisionato di rappresentazioni efficienti. La sua natura profonda risiede nella capacità di "comprimere" la realtà. A differenza degli algoritmi classici di elaborazione del segnale, che seguono istruzioni rigide e trasformazioni matematiche predefinite (come le medie mobili o i polinomi), l’Autoencoder non esegue un compito statico. Esso impara autonomamente a distinguere l'essenziale dal superfluo, agendo come un filtro cognitivo che separa le leggi fisiche del segnale (il determinismo del picco Raman) dal caos dell'errore (il rumore stocastico). Menzionando i picchi Raman, noi facciamo riferimento in questa nostra discussione alla Spettroscopia Raman

Perché l’Autoencoder è una vera Intelligenza Artificiale?

È fondamentale ribadire questa distinzione: molti confondono l'IA con la semplice automazione. L'Autoencoder dimostra di essere una forma autentica di IA per tre ragioni fondamentali:

Auto-apprendimento (Unsupervised Learning): Il modello opera senza la necessità di un "maestro" o di un dataset etichettato manualmente. Analizzando migliaia di segnali, la rete scopre da sola le gerarchie interne e le simmetrie del dato. Non gli viene detto che un certo picco Raman corrisponde al minerale gesso; la rete "osserva" che certi segnali si ripetono con una coerenza tale da costituire una regola strutturale.

Astrazione e Intuizione Matematica: Nel cosiddetto "collo di bottiglia" (bottleneck), l'Autoencoder compie un atto quasi cognitivo di sintesi estrema. Esso deve ridurre la complessità del mondo reale — fatta di migliaia di punti di intensità luminosa — a poche variabili numeriche fondamentali. È la capacità di formare un concetto (un'idea latente): la rete non "vede" più singoli pixel o frequenze, ma percepisce l'essenza cristallina dell'oggetto fisico.

Capacità Rigenerativa: L’IA non si limita a distruggere l'informazione per comprimerla, ma possiede una facoltà generativa. È in grado di "immaginare" la versione ideale di un dato. Quando crea uno Pseudo-Spettro, se i dati considerati sono spettri Raman, l'IA sta operando una ricostruzione logica: colma i vuoti lasciati dal rumore basandosi sulla propria conoscenza della struttura molecolare del minerale.

Com’è fatto un Autoencoder? La struttura a "clessidra"

La bellezza di questa IA risiede nella sua simmetria tecnica, paragonabile a una clessidra che purifica il dato:

L'Encoder (Il Riduttore): Rappresenta la fase analitica. Prende in ingresso uno spettro Raman reale, spesso degradato da fluorescenza, rumore di fondo o artefatti sperimentali. Attraverso una serie di strati neurali, la rete distilla il segnale, scartando tutto ciò che non è coerente con la "grammatica" del dato che ha appreso.

Lo Spazio Latente (Il Collo di Bottiglia): È il momento della verità, il punto più stretto della clessidra. Qui il dato originale è trasformato in un codice matematico compresso. In questo spazio, l'essenza del minerale o di una stella è ridotta a una manciata di numeri che contengono, però, tutta la "verità" chimica e fisica del campione. È un archivio di idee pure.

Il Decoder (Il Ricostruttore): È la fase sintetica e speculare. Prende quel codice astratto dallo spazio latente e cerca di espanderlo nuovamente per tornare alla forma d'onda originale. Poiché le fluttuazioni casuali (il rumore) non hanno una struttura logica, esse non riescono a superare il collo di bottiglia. Il Decoder produce quindi una versione pulita, idealizzata e matematicamente perfetta: lo Pseudo-Spettro.

L’Encoder: Il Setaccio Intelligente della Realtà

L'Encoder è la prima metà della struttura a clessidra dell'Autoencoder ed è responsabile della trasformazione del dato grezzo in una forma astratta. Tecnicamente, è una funzione matematica complessa, indicata come h = f(x), che mappa il dato di input (x) in un codice compresso (h). Ma come avviene questo processo nella pratica della nostra ricerca? Possiamo dividerlo in tre concetti chiave. Per fare questa divisione ci riferiamo ancora al nostro lavoro svolto con gli autoencoder in relazione all'analisi degli  spettri Raman dei minerali. 

1. La Decomposizione Strutturale: Quando inseriamo, ad esempio,  uno spettro Raman nell'Encoder, la rete lo scompone attraverso vari strati (layer). Ogni strato funge da filtro. I primi strati identificano elementi semplici: pendenze, picchi isolati, rumore ad alta frequenza. Gli strati intermedi iniziano a comprendere la gerarchia: riconoscono che certi picchi appartengono sempre alla stessa "famiglia". Gli strati profondi eliminano completamente l'informazione locale irrilevante per concentrarsi sulla "firma" globale.

2. La Distillazione del Segnale (L'eliminazione del rumore): Il compito fondamentale dell'Encoder è decidere cosa sia informazione e cosa sia rumore. Poiché l'Encoder è forzato a comprimere lo spettro in uno spazio molto piccolo, non può "portarsi dietro" tutto. È qui che interviene l'IA: la rete ha imparato che il rumore è casuale e non ha una struttura fisica coerente. Di conseguenza, nel processo di compressione, l'Encoder "dimentica" il rumore perché non è utile a descrivere l'essenza del minerale. Ciò che rimane è una versione distillata, purissima, dei dati fisici.

3. La Funzione di Attivazione: Per decidere quali segnali far passare, l'Encoder usa delle "porte" chiamate funzioni di attivazione. Nel nostro lavoro, abbiamo visto che la funzione Sigmoide è eccellente. La sigmoide comprime i valori in un intervallo tra 0 e 1. In termini spettroscopici, questo significa che l'Encoder riesce a "schiacciare" le fluttuazioni di fondo (vicine allo zero) e a dare massimo rilievo ai picchi significativi (vicini a uno). Funziona come una maschera di contrasto che rende i picchi Raman nitidi come i segnali di una pulsar, pronti per essere archiviati nello spazio latente. 

Lo Spazio Latente: Il Luogo della Verità Sintetica

Lo Spazio Latente (o bottleneck) è la zona di massima compressione della struttura a clessidra dell'Autoencoder. È una dimensione matematica astratta dove il dato originale non esiste più come sequenza di intensità e frequenze, ma viene trasformato in un insieme di coordinate essenziali.

1. La "Stanza del Pensiero" dell'IA: Immagina di dover descrivere lo spettro Raman di un minerale complesso a qualcuno che non lo ha mai visto. Non leggeresti l'elenco di tutte le migliaia di punti dello spettro; descriveresti invece le sue caratteristiche chiave: "ha un picco principale a circa 1008 cm alla meno 1", "mostra tracce di acqua in una determinata area", "ha una struttura cristallina specifica". Lo Spazio Latente fa esattamente questo: riduce migliaia di numeri a poche variabili (i latent features). In questo spazio, l'IA non vede più il rumore; vede solo la struttura logica che tiene insieme il minerale.

2. La Geometria della Somiglianza: Una delle proprietà più affascinanti dello spazio latente è la sua natura geometrica. Se addestriamo correttamente il modello, campioni simili tra loro finiranno per raggrupparsi in posizioni vicine (clustering).

  • Se due spettri di gesso, ad esempio,  provenienti da siti archeologici diversi vengono proiettati nello spazio latente, essi finiranno nello stesso "quartiere" matematico, anche se i loro dati grezzi erano sporcati da rumori differenti.

  • Qui è dove nasce il concetto da noi introdotto dello Pseudo-Spettro: noi non prendiamo un punto casuale, ma cerchiamo il "centroide", ovvero il cuore geometrico di quel gruppo di dati. Quel punto rappresenta la media intelligente di tutto ciò che la rete ha imparato su quel materiale.

3. Il Ponte tra Fisica e Astrazione: Nello spazio latente, l'IA compie il passaggio dalla "scatola nera" alla conoscenza trasparente. Se modifichiamo leggermente una coordinata in questo spazio, vedremo lo spettro ricostruito dal decoder cambiare in modo coerente. Questo significa che lo spazio latente ha codificato una legge fisica reale in un parametro numerico. È la prova che la macchina ha "capito" la chimica sottostante.

Lo Pseudo-Spettro: La Verità nel Centroide dello Spazio Latente

Per dare una definizione rigorosa, dobbiamo abbandonare l'idea che l'IA sia un semplice filtro. Lo Pseudo-Spettro viene formalmente definito come:

La ricostruzione operata dal Decoder a partire dal centroide lineare di un cluster identificato nello spazio latente.

Questa definizione racchiude il cuore della nostra innovazione e si basa su tre pilastri concettuali:

1. Oltre la Media Statistica: Nella statistica tradizionale, per ottenere uno spettro "pulito" si esegue la media aritmetica di molti segnali. Tuttavia, la media trascina con sé i difetti dei dati originali: se tutti gli spettri hanno un fondo di fluorescenza, la media sarà fluorescente. Lo Pseudo-Spettro, invece, nasce nello spazio latente. Qui, l'IA ha già raggruppato i dati (ad esempio, tutti gli spettri appartenenti al cluster del "Gesso") in una nuvola di punti. Calcolare il centroide di questa nuvola significa individuare il "punto di equilibrio ideale" di quella classe di materiali.

2. La Ricostruzione dell'Archetipo: Una volta individuato il centroide — che è un singolo punto matematico purissimo — lo inviamo al Decoder. Il Decoder non sta ricostruendo un campione specifico che abbiamo analizzato in laboratorio; sta dando forma visibile all'archetipo che ha appreso. Il risultato è lo Pseudo-Spettro: una firma vibrazionale che non è mai esistita fisicamente in quella purezza, ma che rappresenta la verità strutturale del minerale, totalmente priva di rumore, shift strumentali o interferenze ambientali.

3. Il Validatore Scientifico: Definire lo pseudo-spettro come il centroide ci permette di usarlo come un "metro campione".

  • Quando analizziamo un dato incerto o uno spettro storico (come quelli della tecnica Rasetti), non dobbiamo più chiederci se quel piccolo picco sia vero o sia rumore.

  • Confrontiamo il dato reale con lo Pseudo-Spettro/Centroide della nostra libreria. Se il centroide mostra un picco in quella posizione, abbiamo la conferma matematica e non supervisionata che quel segnale appartiene alla fisica del cristallo, come nel caso dell'acqua di cristallizzazione.

Aprire la "scatola nera"

Utilizzare il centroide dello spazio latente significa rendere l'IA interpretabile. Possiamo visualizzare cosa l'IA "pensa" che sia un minerale. Lo Pseudo-Spettro diventa quindi l'interfaccia tra la logica binaria della rete neurale e l'intuizione del ricercatore. È il punto d'incontro dove la macchina ci mostra l'essenza della materia che ha imparato a riconoscere. Non solo: tornando allo spazio latente lo Pseudo-Spettro ci dice che esso agisce come un setaccio molecolare perfetto. Poiché lo spazio disponibile è pochissimo (il collo di bottiglia è stretto per definizione), il rumore casuale — che non ha una struttura coerente e non può essere riassunto in poche variabili — viene letteralmente "tagliato fuori". Ciò che resta è l'impronta digitale pura del cristallo. Quando il Decoder attinge dallo spazio latente, non sta leggendo un file rovinato, ma sta consultando un'idea perfetta. Lo Pseudo-Spettro è quindi la manifestazione visibile di questa idea pura.

Il Decoder: L’Architetto della Forma Ideale

Il Decoder è la sezione finale della rete neurale che riceve in input il codice compresso dallo spazio latente e lo "riespande" progressivamente fino a riportarlo alla dimensione del dato originale. Matematicamente, compie l'operazione inversa dell'Encoder, cercando di mappare il punto nello spazio latente in uno spettro completo.

1. Dalla Sintesi alla Manifestazione
Mentre l'Encoder agisce per sottrazione, il Decoder agisce per sintesi. Esso possiede un set di pesi sinaptici che hanno imparato, durante l'addestramento, come "disegnare" uno spettro Raman coerente. Quando gli forniamo le coordinate del centroide nello spazio latente, il Decoder non sta copiando un dato esistente; sta usando la sua conoscenza delle leggi fisiche dei minerali per ricostruire il segnale.

2. Il Filtro della Coerenza Fisica
La caratteristica straordinaria del Decoder è che esso è "cieco" al rumore. Poiché il rumore casuale non è stato codificato nello spazio latente (essendo privo di struttura logica), il Decoder non ha gli strumenti per ricostruirlo. Di conseguenza: Non può generare fluttuazioni casuali. Non può inventare picchi che non abbiano una giustificazione strutturale appresa. Il risultato di questa "incapacità" di riprodurre l'errore è proprio la purezza dello Pseudo-Spettro. Il Decoder genera solo ciò che è statisticamente e fisicamente probabile per quella classe di materiali.

3. La Nascita dello Pseudo-Spettro
Qui il Decoder diventa un generatore di archetipi. Prendendo il punto centrale di un cluster (il centroide), il Decoder produce un output che rappresenta lo spettro perfetto. In questa ricostruzione la linea di base è piatta e pulita. I picchi sono definiti e posizionati con precisione cristallina. Le caratteristiche delicate, come le spalle dei picchi, emergono con una nitidezza che il dato originale non avrebbe mai potuto offrire.

Classifica Dettagliata delle Architetture

La consapevolezza nell'uso dell'IA si manifesta nella scelta del "carattere" della rete, poiché ogni architettura interpreta lo spettro in modo diverso:

  1. Dense Autoencoder (Completamente Connessi) Trattano ogni punto del dato come parte di un sistema globale. Sono i "generalisti" del Deep Learning: eccellenti per cogliere relazioni non lineari profonde e correlazioni tra picchi distanti. Nella nostra analisi del biochar, questa architettura si è dimostrata imbattibile nel mappare la complessità di materiali carboniosi dove la struttura non è perfettamente cristallina.

  2. Conv1D Autoencoder (Convoluzionali) Utilizzano filtri che scorrono lungo il segnale, proprio come una lente d'ingrandimento. Sono i "geometri" della spettroscopia. Eccellono nel riconoscere la morfologia dei picchi e nel preservare dettagli delicatissimi. Sono fondamentali per noi quando dobbiamo identificare , ad esempio, l'acqua di cristallizzazione in un minerale: la loro precisione locale permette di distinguere picchi vibrazionali vicini che altre reti potrebbero confondere.

  3. Transformer Autoencoder Basati sui meccanismi di "attenzione" che hanno rivoluzionato l'elaborazione del linguaggio naturale. Sono i "perfezionisti": pesano l'importanza di ogni singola frequenza rispetto a tutte le altre contemporaneamente. In spettri complessi come quelli SERS, producono pseudo-spettri estremamente definiti (spiky), ideali per isolare segnali metabolici sommersi.

  4. Variational Autoencoder (VAE) Non mappano i dati in punti fissi, ma in distribuzioni di probabilità. Sono i "creativi" dell'IA. Permettono di navigare nello spazio latente per esplorare le sfumature tra diverse classi di minerali, rendendoli utilissimi per generare nuovi dati sintetici o per comprendere le transizioni di fase tra materiali simili.

  5. Denoising Autoencoder Sono addestrati specificamente corrompendo i dati in ingresso con rumore artificiale. Sono i "chirurghi": imparano a ignorare sistematicamente le interferenze più pesanti.

Conclusioni

La descrizione dettagliata dell'architettura a clessidra e della dinamica dello spazio latente permette di concludere che l'Autoencoder rappresenta una forma di intelligenza pura applicata alla materia. La nostra analisi dimostra che L'Autoencoder è IA perché apprende e astrae: Abbiamo dimostrato che l'Encoder non segue regole fisse, ma impara a "dimenticare" il rumore casuale per "ricordare" solo la struttura fisica (il determinismo del segnale), compiendo un vero atto di astrazione nel collo di bottiglia. Lo Pseudo-Spettro, come decodifica del centroide nello spazio latente, prova che la macchina ha compreso la "norma" fisica del materiale. Esso non è una media di dati sporchi, ma la manifestazione visibile di un concetto appreso.

Con l'Autoencoder abbiamo la possibilità della Consapevolezza Architetturale. La distinzione tra modelli Densi e Convoluzionali (Conv1D) dimostra che l'efficacia dell'IA dipende dalla sua capacità di interpretare la geometria del segnale. La precisione nel rilevare picchi Raman specifici non è un caso, ma il risultato di un'architettura che "osserva" il dato con la lente corretta.

In conclusione, l'Autoencoder si rivela un alleato indispensabile perché apre la scatola nera: ci permette di vedere cosa l'IA ha estratto dalla realtà, offrendoci uno strumento (lo Pseudo-Spettro) che funge da ponte tra la potenza del calcolo neurale e il rigore della validazione mineralogica.

Riferimenti

  1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  2. Kramer, M. A. (1991). Nonlinear principal component analysis using autoassociative neural networks. AIChE journal, 37(2), 233-243.
  3. Manifold, B., Thomas, E., Francis, A. T., Hill, A. H., & Fu, D. (2019). Denoising of stimulated Raman scattering microscopy images via deep learning. Biomedical optics express, 10(8), 3860-3874.
  4. Sparavigna, A. C., & Gemini (Modello Linguistico di Google). (2025). The Pseudospectra as Windows into Autoencoders Logic. Zenodo. https://doi.org/10.5281/zenodo.17038439
  5. Yang, B., Fu, X., Sidiropoulos, N. D., & Hong, M. (2017, July). Towards k-means-friendly spaces: Simultaneous deep learning and clustering. In international conference on machine learning (pp. 3861-3870). PMLR.

Pubblicato il 08 febbraio 2026

Amelia Carolina Sparavigna

Amelia Carolina Sparavigna / Politecnico di Torino, Former Faculty, Department of Applied Science and Technology (DISAT)