Cattivi Scienziati
La sequenza del SARS-CoV-2 non è affatto rara
Si ritrova infatti identica in una moltitudine di altri esseri viventi, fra cui numerosissimi microrganismi, ma anche uccelli come un rondone americano, l’astore e l’aquila, e persino alcuni funghi del genere Saprolegnia
Ieri con Marco Gerdol ho cercato di dare qualche spiegazione del perché le assunzioni, i calcoli e le conclusioni di un recente articolo scientifico che considera la presenza di una certa sequenza di 19 basi nel genoma di SARS-CoV-2 come utile a definire l’origine del virus siano tutti variamente erronei. Ora rimane un piccolo, ulteriore passaggio: la principale idea che viene ribadita a supporto dell’articolo in questione, cioè che la famosa sequenza sia unica di SARS-CoV-2 e di una proteina umana, è semplicemente falsa, come molte delle fesserie che trovano la loro origine nei meandri dei social forum.
Questa sequenza “di 19 lettere” si ritrova infatti identica in una moltitudine di altri esseri viventi, fra cui numerosissimi microrganismi, ma anche uccelli come un rondone americano, l’astore e l’aquila, e persino alcuni funghi del genere Saprolegnia; non è affatto rara come si vorrebbe far credere, ma ben diffusa. Chi non ci crede, può semplicemente controllare, come tanti che conoscono almeno i rudimenti dell’analisi di sequenza hanno fatto al momento in cui l’articolo è stato pubblicato e come diversi esperti hanno segnalato a suo tempo con ogni mezzo.
Stabilito quindi che questa sequenza non è unica, e che chi afferma il contrario dice il falso, vorrei condurre per mano il lettore ad esaminare alcune delle cose che ho appreso prima di laurearmi, quando per la prima volta durante il mio corso di laurea ho scoperto le meraviglie dei database di sequenza interrogabili in rete. I miei professori, da subito, mi insegnarono una delle proprietà più note di questi grandi insiemi di dati: presa una sequenza qualsiasi, le probabilità di ritrovarla nel database non sono affatto quelle che ci si attende in base al caso – proprio come accade per la sequenza di 19 basi del coronavirus che abbiamo appena discusso, che troviamo molto più diffusamente di quanto sarebbe da attendersi se la dovessimo cercare in un database di sequenze davvero casuali.
Per convincerci degli strani scherzi che i database di sequenze biologici giocano, possiamo fare qualche esempio.
Per renderlo più interessante, consideriamo sequenze di proteine, invece che di DNA. Dico più interessante, perché mentre l’alfabeto delle sequenze di DNA è composto da sole 4 lettere, quello delle proteine è fatto di 20 lettere. Syngenta è una multinazionale odiata dagli oppositori degli OGM e dai cospirazionisti in genere, perché produce sementi transgeniche. Se interroghiamo un database opportuno, noteremo che la stringa “syngenta” compare nella sequenza di proteine di organismi diversi, tra cui pericolosi patogeni batterici.
Il fatto che, se stessimo esaminando un database di sequenze casuali di proteine, la probabilità di trovare per caso la stringa “syngenta” sarebbe di 1 su 25,6 miliardi, potrebbe convincerci che sia più probabile che la cattivissima Syngenta abbia lasciato la firma nel proteoma di organismi geneticamente modificati. In realtà, come ho imparato da studente, la spiegazione per la presenza di strane coincidenze come quella illustrata è che non si tratta affatto di coincidenze.
Interrogando un database di sequenze biologiche, che siano di DNA o di proteine, noi non stiamo cercando stringhe di una certa lunghezza all’interno di un insieme casuale e molto grande; stiamo cercando invece all’interno di un insieme molto, molto selezionato dal meccanismo darwiniano, in cui sono rappresentate prevalentemente “parole con un significato” biologico. La sequenza di amminoacidi “syngenta” assume una struttura che all’interno di proteine diverse ha una sua funzione precisa; e dunque ricorre più volte dell’atteso, perché l’evoluzione conserva o riscopre ciò che funziona in organismi diversi. Certo, potrebbero esserci sequenze rarissime o assenti nei database biologici; ma la cosa importante è che non dobbiamo attenderci che la probabilità di trovare una certa sequenza in quei database sia quella che avremmo se essi contenessero sequenze casuali di lettere. Non sono così, proprio come i testi in italiano non sono fatti da sequenze casuali di lettere, e per tale motivo certe stringhe di lettere che compongono le parole hanno molta più probabilità di trovarvisi, mentre quelle senza senso non vi si reperiscono.
Dunque chi crede di dimostrare qualcosa, perché in quei database ritrova sequenze che in un database casuale sarebbero rarissime, sbaglia esattamente come chi volesse dimostrare che la presenza di “precipitevolissimevolmente” in un testo italiano sia da escludersi, sulla base della probabilità di comporre tale stringa in un testo fatto di sequenze di lettere casuali. Se poi non sa nemmeno usare i database in questione, e ritiene di aver scoperto che una certa comune sequenza di 19 lettere appare solo in uomo e in SARS-CoV-2, allora dovrebbe più semplicemente togliere le dita dalla tastiera e tornare a ciò che sa fare meglio.
Cattivi scienziati