Un uomo si fa fare una foto con lo smartphone mentre indossa una tuta protettiva in India (Dar Yasin / AP Photo)

Ecco le condizioni per una app contro il coronavirus

Stefano Quintarelli

Per contenere il contagio dobbiamo accumulare più dati possibile e annullare la privacy? Sbagliato. I dati servono, ma devono essere quelli giusti. Appello liberale al tracciamento con app

Rinuncereste a un po’ di libertà in cambio di più sicurezza? Abbiamo sentito spesso questa domanda, sempre in occasione di momenti di particolare sensibilità, e molto di frequente in questi giorni di emergenza provocati dalla pandemia da nuovo coronavirus. A volte questa tensione tra libertà e sicurezza viene anche riformulata in modo più assertivo: per avere un po’ di sicurezza in più occorre rinunciare a un po’ della propria libertà. Questo legame, questo nesso causale inverso tra libertà e sicurezza, viene spesso dato per scontato. Ma è proprio vero ? I dati confortano questo assunto? Un celebre aforisma di Benjamin Franklin recita: “Chi rinuncia alla libertà per raggiungere la sicurezza, non merita né la libertà né la sicurezza”. In questa formulazione Franklin dava per assunto che esiste un percorso per raggiungere una maggiore sicurezza passando attraverso una minore libertà, ma che non fosse l’unica opzione. Anzi, che non fosse la strada da seguire.

 

Oggi il nesso causale inverso tra libertà e sicurezza ci è stato riproposto: ci viene chiesto di rinunciare alla privacy per arginare l’epidemia da Covid-19 mediante tracciamento degli spostamenti delle persone. E’ necessario raccogliere dati sugli spostamenti dei cittadini, ci viene detto, per poter controllare i contagi (contact tracing) e contenerli. Ma questa richiesta di basa su assunti sbagliati.

 

La scienza dell’informazione spiega che esiste una differenza profonda tra i concetti di dato, informazione e conoscenza. In estrema sintesi, i dati sono fatti o osservazioni discrete e oggettive, non organizzati e non elaborati e quindi privi di significato o valore in quanto privi di contesto e di interpretazione. Le informazioni sono dati organizzati o strutturati, che sono stati elaborati in modo tale da possedere una rilevanza per uno scopo o un contesto specifico e sono quindi significativi, utili e rilevanti. La conoscenza è un complesso di esperienze, valori e informazioni contestualizzati, unitamente a intuizioni di esperti ed esperienze pregresse, in grado di costituire un quadro di riferimento adatto per effettuare valutazioni e prendere decisioni. Un dato che non venga organizzato e strutturato in modo opportuno non diventa informazione e una informazione che non venga contestualizzate e dotata di un quadro interpretativo non diventa conoscenza.

 

Oggi viviamo nell’età d’oro della sorveglianza di massa: mai nella storia dell’uomo abbiamo avuto a disposizione gli strumenti per raccogliere una tale quantità di dati su una così vasta massa di persone. Ogni nostro comportamento, spostamento, comunicazione può essere tracciato e archiviato. E spesso lo è. Ma guardiamo per esempio all’antiterrorismo, le cui tecniche sono state suggerite da molti paesi come modello per raccogliere dati sul contagio da coronavirus: benché le forze dell’ordine e le agenzie d’intelligence raccolgano una massiccia mole di dati, gli attentati non si fermano. In quasi tutti i più recenti eventi terroristici in Europa abbiamo sentito che un allarme era giunto ai servizi di informazione, che la polizia conosceva gli attentatori, che i responsabili erano schedati. Ma, allora, perché non siamo riusciti a prevenirli? La risposta è che raccogliere i dati è semplice, trasformarli in informazioni è complicato, ottenere conoscenza utile per prendere decisioni è difficilissimo. Ci concentriamo sulla raccolta di dati e a volte determiniamo quello che il famoso professore e informatico Giovanni Degli Antoni chiamava “l’effetto ‘Troppa grazia Sant’Antonio’”: nella mole dei dati l’informazione si perde, la conoscenza non si riesce a estrarre e l’obiettivo prefissato non si riesce a raggiungere. Al limite, una volta accaduto il fatto, si può effettuare un’analisi andando a ricostruire gli eventi ex post.

 

Il nesso causale tra dato, informazione, conoscenza e poi l’uso della conoscenza per raggiungere un determinato scopo, seppure sembri ovvio, non è invece per nulla scontato. Per non seppellire l’ago con il pagliaio, per poter essere utili, i dati devono essere rilevanti, specifici e proporzionati. E devono essere trattati e analizzati in modo adeguato. Generalmente la fase di trattamento e analisi è quella più onerosa e non è raro che sia trascurata. Ma è raro che l’intero processo sia sottoposto a una valutazione di reale efficacia ed efficienza. Una volta presa la decisione di raccogliere vaste quantità di dati spesso ci si culla nell’illusione di avere fatto tutto il necessario per raggiungere lo scopo. O quantomeno di poterlo affermare.

 

E dunque, la richiesta di rinunciare alla privacy per arginare l’epidemia che ci viene fatta in questi giorni è un esempio di nesso causale non dimostrato tra dato, informazione, conoscenza e poi azione per raggiungere uno scopo.

 

I casi di alcuni paesi asiatici che si sono attivati prima di noi per contrastare il coronavirus ci mostrano esattamente questo: un’ampia raccolta di dati sui contagi può essere un elemento utile quando c’è una strategia su come usarli, ma le possibilità sono così tante che non esiste una ricetta unica per ogni singolo paese e in ogni fase. E a volte – purtroppo – il virus è più forte anche della strategia più raffinata. E’ spesso citata l’esperienza sudcoreana di ridotta diffusione dei contagi e, notoriamente, nella Corea del sud viene usata una app a supporto delle attività di contact tracing da parte del personale sanitario. Non altrettanto frequentemente viene citato il Giappone, dove non viene usata una app per il tracing e la diffusione dei contagi è addirittura inferiore a quella della Corea del sud (ma dove comunque è stato dichiarato lo stato d’emergenza). La città-stato di Singapore, invece, negli scorsi giorni ha annunciato la chiusura delle scuole e di gran parte dei negozi nonostante un’attività di contact tracing elogiata in tutto il mondo: il primo ministro Lee Hsien Loong ha detto che nonostante gli sforzi per rintracciare tutti i contagi “per la metà dei nuovi casi non sappiamo dove o da chi la persona ha preso il virus”. Ogni paese fa storia a sé per il contesto, gli usi, le abitudini, la struttura sociale, la fase epidemica, e così via.

 

Sono gli epidemiologi a stabilire quali pratiche siano appropriate per ogni contesto. Se e quando gli epidemiologi riterranno che per mitigare i contagi sarà utile anche in Italia l’utilizzo di una app di supporto al tracing, allora tale capacità dovrà essere disponibile, quindi è bene prepararsi. Per farlo, non è necessario rinunciare alla privacy.

 

L’obiettivo di una infrastruttura informatica per il contact tracing è raccogliere informazioni utili a stabilire se una persona sia rimasta accanto a un’altra entro un raggio definito per un tempo definito. Per un trattamento proporzionale ci si deve chiedere quali siano i dati minimi da raccogliere per poter estrarre un’informazione che possa diventare conoscenza e dunque trasformarsi in azione. La posizione delle persone è un tale dato?

 

Sapere che Tizio era all’interno della stessa stazione ferroviaria di Sempronio, nello stesso momento, assieme ad altre 1.500 persone genererebbe una quantità di dati eccessiva rispetto all’esigenza di poter risalire a chi è stato nel raggio di due metri da lui (ipotizzando che sia questa la distanza per il contagio). Ci serve veramente sapere dove fossero Tizio e Sempronio quando erano vicini o è più utile sapere che erano l’uno accanto all’altro? Naturalmente è utile sapere che erano vicini e questo è il tipo di informazione che può essere generata integrando i dati raccolti mediante il sistema bluetooth degli smartphone.

 

Una volta stabilito che Tizio è stato accanto a Sempronio, quando Sempronio risultasse contagiato, ci serve sapere che il vero nome di Tizio è Mario Rossi di Voghera per poterlo avvisare e indicargli di recarsi a effettuare un test? Naturalmente no, è sufficiente inviare una notifica al suo smartphone offrendogli la possibilità di prenotare un tampone in un centro di analisi. Se poi non avessimo la capacità di analisi sufficiente, e dunque non fosse possibile fare il tampone a chi ne avesse bisogno, avremmo di nuovo generato una quantità di informazione non gestibile e quindi avremmo riprodotto l’effetto “Troppa grazia Sant’Antonio”. La raccolta dei dati non può essere considerata senza tenere conto della reale possibilità di usarli.

 

Una frase molto citata quando si ha a che fare con i dati è che “i dati sono il nuovo petrolio”, una analogia che porta naturalmente a pensare che più ne abbiamo, meglio sia. D’altronde abbiamo davanti a noi costantemente l’esempio dei grandi Over The Top (in primo luogo Google e Facebook) che fagocitano ogni nostra informazione al fine di profilarci per venderci meglio agli azionisti pubblicitari, grazie anche a sofisticati sistemi di intelligenza artificiale.

 

Anche in questo caso la realtà non è esattamente come si intuisce. Per la particolare attività di chi vende pubblicità online è in effetti importante profilare al meglio le persone, ma in generale, rispetto a scopi mirati, troppi dati possono anche risultare controproducenti.

 

Nell’ambito dell’intelligenza artificiale, il machine leaning è l’attività in cui i dati vengono esaminati per distillare modelli statistici derivanti dalle correlazioni che si celano nei dati stessi. Distillare tali modelli è una attività estremamente onerosa in termini di calcoli, e quindi di denaro necessario per pagare i computer. Per ovviare a questo problema interviene la “riduzione dimensionale”, una tecnica statistica usata per limitare i dati da considerare a quelli che realmente possono portare un contributo al modello e tralasciare quelli non necessari. La cosiddetta “maledizione della dimensionalità” è stata descritta per la prima volta dal matematico Richard Bellman nel 1961 e dimostra che un modello può raggiungere il massimo delle prestazioni se fornito con un numero ottimale di caratteristiche. Aggiungerne di più è addirittura controproducente. Inoltre, i ricercatori hanno dimostrato che alcuni modelli raggiungono un livello di prestazioni elevato con un determinato quantitativo di dati considerati, oltre il quale l’aggiunta di altri dati non aumenta le prestazioni.

 

L’aggiunta di dati ha un costo, in termini di tempo di calcolo, di memorizzazione e di rischio per la privacy. Un’efficace minimizzazione dei dati può ridurre tali costi, in quanto non si elaborano dati di cui non si ha bisogno.

 

Dal punto di vista di un’azienda, oggi non è possibile sapere esattamente di quali dati potremmo aver bisogno in futuro, per cui è bene iniziare subito una strategia di accumulo di dati riguardanti tutti i processi aziendali per evitare il rischio che poi, tra tre anni, ci servano dati che non abbiamo raccolto. Ma una volta disponibili i dati, dovremo essere molto attenti a quali e quanti usarne per i nostri modelli. Questo è quello che fanno Google e Facebook.

 

Dal un punto di vista della società, poiché la raccolta dei dati può impattare in modo significativo sulla vita delle persone e sui loro diritti fondamentali, dobbiamo invece seguire l’approccio opposto: raccogliere e utilizzare soltanto i dati strettamente necessari e in un modo rispettoso della privacy. Il principio di proporzionalità è già presente nel nostro ordinamento nelle norme relative al trattamento dei dati personali, secondo cui possono essere trattati i soli dati pertinenti e non eccedenti in relazione alle finalità perseguite. E questo principio deve essere rispettato anche nell’attuale momento di emergenza, non soltanto perché lo dicono le norme ma perché una raccolta dei dati proporzionale agli effettivi bisogni è il modo migliore per contenere l’epidemia.

 

Riprendendo l’aforisma di Franklin, rinunciare alla privacy per raggiungere lo scopo non è necessario. La sicurezza può essere ottenuta anche rispettando la privacy. Non basta concentrarsi soltanto sulla raccolta dati, raccogliendo dati eccessivi, non proporzionati rispetto allo scopo. Dobbiamo anche tenere conto di come questi dati possono generare informazioni utili, come queste informazioni possano divenire conoscenza azionabile e come queste azioni possano essere essere davvero realizzate. Creare una app per raccogliere dati sull’epidemia e che sia rispettosa della privacy è possibile, con i dovuti accorgimenti. Ma è soltanto il primo passo.

Di più su questi argomenti: