Go down

L’integrazione dell’Intelligenza Artificiale nella ricerca scientifica richiede un passaggio fondamentale dalla "black box" alla consapevolezza architettonica. Il presente lavoro esplora l'utilizzo degli autoencoder — una forma specifica di IA generativa — non come semplici strumenti di denoising, ma come modelli interpretativi nella spettroscopia, che nel caso ora proposto è la spettroscopia Raman. Attraverso la compressione dei dati in uno spazio latente, ottimizzato mediante funzioni di attivazione come la sigmoide, l'autoencoder permette di trascendere il dato grezzo per generare uno pseudospettro.

Questa strategia, basata sull'apprendimento di cluster di materiali puri (derivanti da database come RRUFF), consente di creare modelli di riferimento ideali. Lo pseudospettro diventa così un ponte metodologico per validare segnali o reinterpretare dati storici. Non solo, lo pseudospettro aiuta a comprendere come l'Autoencoder ragioni. In tal modo esso non è più una scatola nera ma uno strumento cognitivo. L’approccio proposto dimostra quindi come un uso consapevole delle architetture neurali possa trasformare l'IA in un raffinato setaccio molecolare, capace di rivelare la firma vibrazionale autentica di minerali e composti organici, anche in presenza di un elevato rapporto segnale-rumore.


Introduzione

L'intelligenza artificiale nella ricerca scientifica non può essere una "scatola nera" a cui affidare ciecamente i propri dati. Nella spettroscopia Raman ad esempio, la vera rivoluzione non sta nella potenza di calcolo, ma nella consapevolezza architettonica. Tra i vari modelli di AI a nostra disposizione, dai Transformer ai Flow-based, fino ai modelli di Diffusione, l'Autoencoder emerge come lo strumento più introspettivo e adatto a decifrare il linguaggio della natura molecolare dei materiali. La spettroscopia Raman è infatti un linguaggio di vibrazioni dei materiali. Non è solo una tecnica di analisi; è il racconto delle vibrazioni molecolari di un cristallo. Ogni picco rappresenta un modo di vibrare dei legami chimici, una firma energetica univoca. Tuttavia, quando analizziamo campioni storici o minerali complessi, questo racconto è spesso soffocato. Il rumore elettronico, la fluorescenza del fondo e le interferenze ambientali creano una "nebbia" che rende difficile distinguere un legame  dell'acqua di cristallizzazione, ad esempio, da un semplice artefatto. In questo caso, si è proposto l'uso dello pseudospettro che va oltre  la pulizia dei dati. In tal modo, l'IA interviene in una strategia consapevole. Invece di limitarci al *denoising* — che spesso "pialla" i picchi più deboli ma essenziali — utilizziamo l'Autoencoder per generare uno pseudospettro. Lo pseudospettro non è il dato originale ripulito, ma una proiezione ideale costruita dall'intelligenza artificiale.

Ecco come avviene sommariamente il processo.  L'IA viene addestrata su librerie di alta qualità (come il database RRUFF). Attraverso il clustering, il modello impara a riconoscere le "famiglie" vibrazionali dei materiali puri. Ora, la nostra osservazione critica è che quando sottoponiamo un segnale rumoroso all'Autoencoder, non gli chiediamo di "indovinare" i picchi mancanti. Gli chiediamo di confrontare quel segnale con lo spazio latente che rappresenta la "perfezione" del minerale. Lo pseudospettro che ne deriva diventa un modello di riferimento. Se lo spettro reale è una voce che urla in una tempesta, lo pseudospettro è lo spartito originale di quella canzone: ci permette di capire esattamente cosa stiamo ascoltando, anche se il suono è distorto.

In questo testo vediamo pertanto di descrivere che cosa sono gli Autoencoder e vedere come essi possano essere utilizzati consapevolmente nell'analisi degli spettri Raman. Ma non solo. Tutte le tecniche di spettroscopia possono essere agevolate dall'uso di questa forma di AI.

L'Autoencoder: Una Forma Pura di Intelligenza Artificiale

È fondamentale comprendere che l'Autoencoder non è un semplice filtro matematico, come potrebbe essere una trasformata di Fourier o una correzione polinomiale della linea di base. È, a tutti gli effetti, una forma di Intelligenza Artificiale. A differenza degli algoritmi tradizionali che seguono istruzioni rigide, l'Autoencoder "impara" la struttura intima del dato. È una rete neurale progettata per l'auto-apprendimento: durante l'addestramento, nessuno gli dice esplicitamente cos'è un picco Raman; è il modello stesso che, analizzando migliaia di esempi, "comprende" quali siano le caratteristiche essenziali che definiscono quel minerale. Perché questa distinzione è cruciale? Perché definire l'autoencoder come IA significa riconoscergli una capacità interpretativa.

Di conseguenza, l'Autoencoder non è lineare: Può cogliere relazioni tra i picchi che sfuggono ai metodi statistici classici. È generativo: Quando creiamo uno pseudospettro ad esempio, stiamo chiedendo all'IA di trovare la forma ideale dello spettro Raman del cristallo basandosi sulla sua esperienza pregressa. In questo senso, l'Autoencoder agisce come un esperto mineralogista digitale che, guardando uno spettro  è in grado di dire: "In base a tutto ciò che ho appreso sui legami chimici, la firma vibrazionale autentica di questo campione dovrebbe essere questa".

Nello pseudospettro risiede il cuore della nostra strategia. Lo pseudospettro è il "pensiero" dell'IA reso visibile. Stiamo infatti usando l'intelligenza della rete per ricostruire un'informazione che il rumore può aver cancellato o distorto. Utilizzando la funzione sigmoide, ad esempio, per comprimere l'informazione nel "collo di bottiglia" della rete, costringiamo l'IA a fare una scelta: cosa merita di diventare parte dello pseudospettro e cosa deve essere scartato? Questa capacità di selezione consapevole è ciò che distingue l'IA da un banale software di editing dei dati. Inoltre lo pseudospettro ci permette di comprendere come l'Autoencoder che abbiamo usato abbia ragionato. In tal modo l'Autoencoder non è più una scatola nera, ma ci palesa la sua rete neurale.

L'Architettura della Sintesi

Per comprendere un autoencoder, dobbiamo vederlo come un processo di distillazione culinaria. Immaginate lo spettro Raman di un minerale, come il gesso ad esempio, come una ricetta ricca ma sporcata da "impurità" (il rumore di fondo, la fluorescenza, l'errore strumentale). per prima cosa lo passiamo all’Encoder (La Riduzione). Questa fase comprime lo spettro originale in uno spazio latente a bassa dimensionalità. È l'atto di estrarre l'essenza: i legami molecolari fondamentali quindi ignorando il superfluo. Poi arriva il Collo di Bottiglia (Il Cuore): Qui risiede l'informazione pura. Se usiamo una funzione sigmoide in questa fase, riusciamo a mappare il segnale in un range 0 e 1. È una scelta eccellente per la spettroscopia: la sigmoide concentra l'attenzione sul segnale centrale, dove la fisica del minerale "urla" la sua presenza. Infine arriva il Decoder (La Ricostruzione): Il modello tenta di rigenerare lo spettro partendo solo dai dati essenziali. Lo pseudospettro è la rigenerazione dallo spazio latente del centroide del cluster considerato. La scelta del numero di cluster da considerare è lasciata alla consapevolezza dell'umano che utilizza l'IA.

La Consapevolezza Architettonica: Perché l'Autoencoder?

Nel panorama dell'IA, non tutti i modelli sono creati uguali. Scegliere quello giusto significa comprendere la natura del dato spettroscopico. Ecco una breve lista di modelli.

Transformer Models: Sebbene essi dominino il linguaggio naturale, per la spettroscopia rischiano di sovraccaricare la relazione tra picchi lontani che non hanno una correlazione fisica reale.
Diffusion Models: Straordinari per generare immagini, ma nella spettroscopia Raman rischiano di "inventare" dettagli per colmare il vuoto del rumore, creando falsi positivi pericolosi per la mineralogia.
Flow-based Models: Eccellenti per modellare distribuzioni complesse, ma spesso mancano di quella capacità di "sintesi estrema" di cui abbiamo bisogno.

L'Autoencoder, invece, è per sua natura un esercizio di introspezione. Costringendo lo spettro a passare attraverso un "collo di bottiglia" (il latent space), lo obblighiamo a rivelare solo ciò che è strutturale.

Quando usiamo l'Autoencoder, non stiamo solo processando segnali; stiamo validando una teoria fisica. Se lo pseudospettro ricostruito dal modello mantiene la coerenza con i dati del database RRUFF, ad esempio, abbiamo la prova matematica che il segnale originale — per quanto rumoroso — conteneva l'impronta digitale del minerale. Questo è il momento in cui la tecnologia smette di essere "scatola nera" e diventa la lente d'ingrandimento con cui osservare i dati.

La Scelta dell'Architettura Autoencoder: Dense vs Conv1D

Nella generazione dello pseudospettro Raman, abbiamo riscontrato che due architetture si distinguono per efficacia, seppur con approcci differenti: i modelli Dense e i modelli Conv1D.

Dense Autoencoder (Deep Neural Networks): Questi modelli trattano ogni punto dello spettro come un'entità interconnessa. Sono straordinari nel catturare relazioni globali e correlazioni non lineari profonde tra picchi distanti. Quando lavoriamo su cluster di materiali complessi, la struttura Dense permette all'IA di "comprendere" l'intero profilo energetico del minerale come un'unica firma olistica.
Conv1D Autoencoder (Convoluzionali): Qui l'IA agisce in modo più "locale", simile a come un esperto farebbe scorrere una lente d'ingrandimento lungo lo spettro. I livelli convoluzionali sono maestri nel riconoscere i pattern locali — la forma specifica di un picco, la sua larghezza a metà altezza, la simmetria. Ad esempio, per lo pseudospettro del gesso il Conv1D è imbattibile nel preservare l'integrità dei segnali dell'acqua di cristallizzazione, poiché è intrinsecamente progettato per rilevare caratteristiche che si ripetono o si spostano leggermente lungo l'asse delle frequenze.

La combinazione di questi approcci, o la scelta consapevole dell'uno rispetto all'altro, trasforma lo pseudospettro in un modello matematico ad altissima fedeltà. Mentre il Dense garantisce che la "ricetta" generale del minerale sia corretta, il Conv1D assicura che ogni "ingrediente" vibrazionale sia rifinito nei minimi dettagli.

I Test svolti

Ecco la lista dei nostri test, organizzati cronologicamente con relativi commenti sull'evoluzione del concetto di pseudospettro.

Unsupervised CNN e K-means applicati a spettri Raman dei minerali:  Articolo fondamentale che stabilisce l'uso di Autoencoder Convoluzionali (CNN) per apprendere caratteristiche salienti senza supervisione.  Emerge l'idea che ogni cluster nello spazio latente rappresenti una "forma archetipica" o una "media intelligente" della classe. Agosto 2025, https://zenodo.org/records/16743376

Gli spettri ATR-IR di alcuni minerali analizzati tramite Autoencoder e K-means: Estensione del metodo alla spettroscopia infrarossa per identificare raggruppamenti naturali come le zeoliti. Serve a convalidare che l'AI raggruppi i minerali in base a legami chimici reali e non al rumore. Agosto 2025, https://zenodo.org/records/16761831

Come l'Autoencoder Convoluzionale Distingue gli Spettri Raman di Albite e Microclino: Test di sforzo su minerali isomorfi con spettri quasi identici.  L'AI genera pseudospettri distinti, dimostrando di poter "vedere" micro-differenze cristalline invisibili all'occhio umano. Agosto 2025, https://zenodo.org/records/16839936

L'Autoencoder convoluzionale e gli spettri Raman dei Granati: Analisi delle famiglie Piralspiti e Ugranditi. È il lavoro "capostipite" in cui viene coniato formalmente il termine. Lo pseudospettro viene definito come la firma di riferimento che elimina le variazioni individuali. Agosto 2025, https://zenodo.org/records/16886883

Dense Autoencoder-Generated Pseudospectra for Unsupervised Raman Classification of Carbonaceous Materials:  Uso di un'architettura Densa per materiali come grafite e biochar. Viene creata una libreria di riferimento di quattro classi, provando che una rete "generalista", come quella del Dense Autoencoder, può estrarre il codice chimico in modo robusto. Agosto 2025, https://zenodo.org/records/16935868

AI's New Lens: Transformer Autoencoders Unveil Hidden Connections in SERS Metabolite Spectra:  Introduzione dei Transformer applicati ai metaboliti SERS.  Confronto tra architetture: il Conv-1D genera spettri "morbidi", mentre il Transformer crea rappresentazioni "spiky" che filtrano drasticamente il rumore. Settembre 2025 https://zenodo.org/records/17021372

The Pseudospectra as Windows into Autoencoders Logic: Manifesto teorico sul ruolo interpretativo dell'AI. Definito come la "finestra" attraverso cui l'uomo visualizza ciò che l'AI ha appreso, rendendo la "scatola nera" interpretabile. Settembre 2025 https://zenodo.org/records/17038439

A Novel Unsupervised Approach to Stellar Spectra Analysis:  Applicazione all'astrofisica (libreria MILES) per la classificazione stellare. Lo pseudospettro diventa un archetipo stellare privo di rumore che supera i limiti dei metodi di fitting tradizionali.  Settembre 2025 https://zenodo.org/records/17144409

Dalla Spettroscopia Raman alla Certificazione Strutturale (Biochar): Applicazione pratica per la mitigazione climatica e il sequestro di carbonio: Lo pseudospettro diventa un criterio decisionale e di certificazione automatizzata dei materiali. Novembre 2025 https://zenodo.org/records/17560586


Riferimenti

  1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  2. Kramer, M. A. (1991). Nonlinear principal component analysis using autoassociative neural networks. AIChE journal, 37(2), 233-243.
  3. Manifold, B., Thomas, E., Francis, A. T., Hill, A. H., & Fu, D. (2019). Denoising of stimulated Raman scattering microscopy images via deep learning. Biomedical optics express, 10(8), 3860-3874.
  4. Sparavigna, A. C., & Gemini (Modello Linguistico di Google). (2025). Unveiling the Chemical Code in Pseudospectra: A Comparative Study of a 1D Convolutional Autoencoder and a Dense Autoencoder for SERS Classification. Zenodo. https://doi.org/10.5281/zenodo.16912956
  5. Sparavigna, A. C., & Gemini (Modello Linguistico di Google). (2025). Dense AutoencoderGenerated Pseudospectra for Unsupervised Raman Classification of Carbonaceous Materials. Zenodo. https://doi.org/10.5281/zenodo.16935868
  6. Sparavigna, A. C., & Gemini (Modello Linguistico di Google). (2025). The Pseudospectra as Windows into Autoencoders Logic. Zenodo. https://doi.org/10.5281/zenodo.17038439
  7. Sparavigna, A. C., & Gemini (Modello Linguistico di Google). (2026). Oltre la Scatola Nera: L'Emergenza dello Pseudo-Spettro come Archetipo dell'Intelligenza Artificiale per l'Analisi Spettrale Non Supervisionata Dalla Mineralogia all'Astrofisica. Zenodo. https://doi.org/10.5281/zenodo.18139563
  8. Yang, B., Fu, X., Sidiropoulos, N. D., & Hong, M. (2017, July). Towards k-means-friendly spaces: Simultaneous deep learning and clustering. In international conference on machine learning (pp. 3861-3870). PMLR.
  9. Zeng, Y., Liu, Z. Q., Fan, X. G., & Wang, X. (2023). Modified denoising method of Raman spectrabased deep learning for Raman semi-quantitative analysis and imaging. Microchemical Journal, 191, 108777S139563

Pubblicato il 06 febbraio 2026

Amelia Carolina Sparavigna

Amelia Carolina Sparavigna / Politecnico di Torino, Former Faculty, Department of Applied Science and Technology (DISAT)