Cattivi scienziati
Rendere alcune funzioni delle proteine à la carte? Ora si può
Una collaborazione tra scienziati di tutto il mondo e Google ha portato alla seconda versione di una intelligenza artificiale capace di predire la struttura di qualsiasi proteina a partire dalla sua sequenza. Un risultato importante, che apre nuove prospettive per la ricerca
È di questi giorni una notizia che, per chi studia biologia, ha un valore straordinario: una collaborazione tra scienziati di tutto il mondo e Google ha portato alla seconda versione di una intelligenza artificiale capace di predire la struttura di qualsiasi proteina a partire dalla sua sequenza, con una accuratezza pari a quella dei metodi sperimentali utilizzati fino ad oggi (diffrazione dei raggi X, risonanza magnetica nucleare e microscopia crioelettronica). Questo risultato è stato celebrato recentissimamente da Nature.
Vorrei provare a spiegare al lettore perché questa notizia ha importanza. Cominciamo con un breve ripasso di biologia, quindi.
Le catene di acidi nucleici (DNA o RNA) che costituiscono il genoma di ogni organismo vivente noto sono spesso presentate come il progetto di fabbrica della vita, nelle sue molteplici manifestazioni su questo pianeta. Da lungo tempo, infatti, è stato dimostrato che cambiamenti nel genoma di un essere vivente possono produrre cambiamenti nel suo aspetto esterno e nelle sue funzioni, e tali cambiamenti sono trasmissibili alla progenie, implicando che un certo genoma specifichi per tali caratteristiche in maniera tale da ricostruirle da zero nei discendenti.
Il modo in cui questo avviene è rappresentato in tutti i testi di biologia di base: sequenze diverse di DNA o RNA codificano per sequenze di proteine differenti; la specifica sequenza di queste ultime è associata alla funzione, e sostanzialmente il grosso del nostro modo di essere è determinato dall’attività di una moltitudine di diverse proteine, ciascuna in grado di attuare funzioni specifiche che vanno dal dare forma al nostro corpo, al consentire qualunque funzione fisiologica e a costruire tutte le strutture complesse che chiamiamo cellule, tessuti, organi e sistemi di organi. È così per noi, per ogni essere vivente e anche per i virus, compreso SARS-CoV-2: la sequenza del suo genoma di RNA determina per esempio quella della proteina Spike, e mutazioni in questa sequenza sono quelle che nelle varianti del virus riescono a rendere più o meno efficiente la proteina oltre che a nasconderla più o meno meglio al nostro sistema immunitario, determinando così effetti sia sull’infettività del patogeno che sulla sua capacità di sfuggire alla nostra risposta immune e di aggirare i vaccini.
Ma come fanno DNA e RNA, attraverso la determinazione della sequenza di una proteina, a determinarne la funzione specifica? Perché cioè proteine con sequenza diversa possono avere funzioni diverse? In realtà, questo avviene perché le proteine, ovvero dei lunghi filamenti di amminoacidi, si raggomitolano in forme tridimensionali ben precise, forme determinate proprio dalla loro sequenza; queste forme particolari sono quelle che sono in grado di attuare una o più specifiche funzioni, esattamente come un martello, una pinza e un cacciavite nella nostra cassetta degli attrezzi hanno funzioni che sono controllate dalla loro specifica forma.
La proteina Spike dei coronavirus, per esempio, ha una forma tale da adattarsi bene a quella di una proteina diffusa sulla superficie di molte cellule umane, la ACE2, e così esercita la funzione di gancio e chiave di ingresso per consentire al virus di infettare le cellule.
Conoscere la sequenza di una proteina, attraverso la determinazione della sequenza del genoma di un organismo, potrebbe quindi in linea di principio permettere di conoscerne la funzione; di converso, sempre in linea di principio dovrebbe essere possibile ottenere proteine con una funzione prespecificata producendo una sequenza di DNA ben definita e utilizzandola per la produzione della proteina desiderata. Se questo tipo di conoscenza fosse alla nostra portata, tutte le funzioni delle proteine sarebbero disponibili “a la carte”: potremmo ottenere enzimi capaci di reazioni impensabili, come ad esempio la digestione dei nostri rifiuti, oppure utili a scopi farmacologici e così via.
Il problema è che finora abbiamo sempre trovato che la sequenza determina la funzione delle proteine, ma mai in che modo preciso: abbiamo cioè sempre visto che cambiando eccessivamente la sequenza si perde la struttura e quindi la funzione delle proteine, ma non siamo mai riusciti a capire come una certa sequenza determini una struttura tridimensionale precisa, e per questa via la funzione di una proteina.
Ora possiamo cominciare ad intuire la portata di ciò che è stato realizzato da AlphaFold2: per la prima volta, siamo invece in grado di predire quale sarà la struttura tridimensionale di una proteina che possieda una certa sequenza.
Grazie ad una intelligenza artificiale, che ha surclassato gli sforzi delle nostre migliori menti, possiamo cioè dare la forma che vogliamo ai nostri “attrezzi” proteici: possiamo ottenere martelli, pinze, cacciaviti, e possiamo anche predire che un certo organismo, di cui abbiamo sequenziato il DNA (come è accaduto SARS-CoV-2), produce un certo tipo di cacciavite, di martello o di pinza. Siamo ora pronti per il prossimo passo: progettare forme proteiche con una certa funzione, oppure – equivalentemente – predire la funzione di una proteina dalla sua forma.
Intanto, possiamo tuttavia riprodurre forme la cui funzione sia nota, aggregandole come ci pare fra di loro, come i meccanismi di un orologio; per la prima volta, l’orologiaio di Dawkins non è più cieco.