Un recente studio firmato da Romina Wild e dal professore della SISSA Alessandro Laio, insieme a Felix Wodaczek, Vittorio Del Tatto e Bingqing Cheng, e pubblicato sulla rivista Nature Communications, introduce un nuovo metodo per la selezione e il bilanciamento automatico delle caratteristiche nei sistemi molecolari: il Differentiable Information Imbalance (DII).
La selezione delle caratteristiche è un passaggio cruciale nell'analisi dei dati e nell'apprendimento automatico, poiché permette di identificare le variabili più rilevanti per descrivere un sistema complesso. Questo processo consente di ridurre la complessità del modello e migliorarne le prestazioni, eliminando informazioni ridondanti o non significative. Nel contesto molecolare, le caratteristiche possono includere variabili come le distanze tra atomi, gli angoli di legame o altre proprietà chimico-fisiche che descrivono la struttura e il comportamento di una molecola.
Tuttavia, la selezione delle caratteristiche presenta diverse sfide come determinare il numero ottimale di caratteristiche, allineare unità di misura diverse e valutarne l'importanza relativa. Il metodo DII affronta questi problemi valutando il contenuto informativo di ciascuna caratteristica e ottimizzandone automaticamente l'importanza. Questo processo avviene tramite un algoritmo di ottimizzazione (gradient descent) che regola i pesi delle caratteristiche, fornendo una descrizione del sistema ridotta (a bassa dimensionalità) e facilmente interpretabile.
Lo studio dimostra l’efficacia del metodo DII in due casi di studio: l’identificazione di variabili collettive per descrivere le conformazioni di biomolecole e la selezione delle caratteristiche per l’addestramento di campi di forza basati sull’apprendimento automatico. Il metodo è stato implementato nella libreria Python DADApy. Questo lavoro evidenzia l'utilità del metodo DII nel superare le sfide della selezione delle caratteristiche in diverse aree applicative.
Leggi l'articolo completo: https://www.nature.com/articles/s41467-024-55449-7