Sull’uso responsabile dei dati digitali per affrontare la pandemia di Coronavirus (COVID-19)

Riassunto e traduzione dell’articolo: Ienca, M., Vayena, E. On the responsible use of digital data to tackle the COVID-19 pandemicNature Medicine. 2020.

Riassunto e traduzione a cura di: Marcello Ienca

Articolo Originale Pubblicato il 27 Marzo 2020

Mini abstract: L’utilizzo dei big data e dell’intelligenza artificiale può rivelarsi uno strumento di fondamentale importanza nella lotta contro l’epidemia di COVID-19 in vari ambiti dell’epidemiologia digitale quali il contact tracing, il monitoraggio dei sintomi, l’assistenza sanitaria e la creazione di modelli predittivi. Tuttavia, è altrettanto importante utilizzare questi dati e algoritmi in modo responsabile, nel rispetto delle normative sulla protezione dei dati e della privacy. In caso contrario, si rischia di minare la fiducia della popolazione, rendendo meno probabile che le persone seguano i consigli o le raccomandazioni in materia di salute pubblica e contribuiscano al contenimento del contagio. In questo articolo presentiamo una serie di requisiti di base per l’uso responsabile di dati e algoritmi nella gestione della pandemia basati sull’etica dei dati e della salute digitale nonchè sul Regolamento Generale sulla Protezione dei Dati.

L’11 Marzo 2020 il direttore generale dell’Organizzazione Mondiale della Sanità (OMS) dichiarava che l’epidemia di coronavirus 19 (COVID-19), la malattia causata dal virus SARS-CoV-2, fosse caratterizzabile come una pandemia. Rispetto alla precedente epidemia indotta da un simile coronavirus, la sindrome respiratoria acuta grave (SARS) del 2002-2003, COVID-19 ha già causato un numero di casi e morti decine di volte superiori. A differenza dell’epidemia del 2002-2003, tuttavia, l’emergenza COVID-19 si sta verificando in un mondo significativamente più digitalizzato e connesso. La quantità di dati prodotti dall’alba dell’umanità fino al 2003 viene oggi generata in pochi minuti. Inoltre, modelli computazionali avanzati, come quelli basati sull’apprendimento automatico, hanno mostrato un grande potenziale nel rintracciare la fonte o nel prevedere la futura diffusione di malattie infettive [1,2]. È quindi imperativo sfruttare i big data e gli algoritmi intelligenti per farne buon uso per la salute pubblica. 

Il ricorso a fonti di dati digitali, come i dati provenienti dai telefoni cellulari e da altri dispositivi, è particolarmente utile in caso di epidemie causate da agenti patogeni nuovi o scoperti di recente, dove i dati ufficiali e le previsioni affidabili sono ancora scarsi. Un recente studio ha dimostrato la possibilità di prevedere la diffusione dell’epidemia di COVID-19 combinando i dati della Official Aviation Guide con i dati sulla mobilità umana registrati dell’app WeChat (una sorta di WhatsApp cinese) e di altri servizi digitali di proprietà del colosso tecnologico Tencent [3]. I dati dei telefoni cellulari si erano già mostrati utili a prevedere la diffusione spaziale del colera durante l’epidemia di Haiti del 2010 [4], mentre l’analisi dei big data ha dimostrato la sua efficacia durante la crisi dell’Ebola dell’Africa occidentale del 2014-2016[5].

Tuttavia, durante queste recenti epidemie, la raccolta su larga scala di dati mobili da milioni di utenti ha sollevato anche preoccupazioni per la privacy e la protezione dei dati. Nel 2014, le preoccupazioni in materia di privacy hanno spinto la GSM Association (un’organizzazione del settore che rappresenta gli interessi degli operatori di reti mobili in tutto il mondo) a emanare linee guida sulla protezione della privacy nell’uso dei dati dei telefoni cellulari per rispondere all’epidemia di Ebola [6]. Nel mondo altamente digitalizzato del 2020, gli strumenti di sorveglianza digitale possono facilmente esacerbare tali preoccupazioni. Secondo varie fonti, la Cina, il Paese da cui l’epidemia di COVID-19 si è originata, avrebbe utilizzato i dati ubiquitari dei sensori, dispositivie di videosorveglianza e varie applicazioni di controllo sanitario per frenare la diffusione della malattia [7]. Secondo un rapporto del New York Times, c’è poca trasparenza su come questi dati siano stati sottoposti a controlli incrociati e riutilizzati a fini di sorveglianza. Ad esempio, il rapporto afferma che Health Code, un’applicazione gestita dal governo cinese per facilitare le decisioni su chi deve essere messo in quarantena per COVID-19, sembra condividere le informazioni con la polizia [8]. In Italia, il Paese europeo che registra il maggior numero di infezioni da COVID-19, l’autorità locale per la protezione dei dati ha rilasciato, il 2 marzo 2020, una dichiarazione per chiarire le condizioni di utilizzo legittimo dei dati a scopo preventivo. In questa dichiarazione, il Garante ha messo in guardia contro la raccolta e l’elaborazione di dati privati da parte di attori non istituzionali (ad esempio datori di lavoro privati). Due settimane dopo, il presidente del Comitato europeo per la protezione dei dati (EDPB) ha rilasciato una dichiarazione per sottolineare che, anche in questi tempi eccezionali, la protezione dei dati personali degli interessati deve essere garantita [3].

Poiché l’intelligenza artificiale e i big data saranno fondamentali per la gestione dell’epidemia di COVID-19 nel mondo digitale di oggi, dobbiamo essere chiari circa le condizioni necessarie per una raccolta e un’elaborazione responsabile dei dati su scala globale. È anzitutto essenziale riconoscere che l’utilizzo di dati e algoritmi predittivi sia uno strumento di fondamentale importanza nella lotta contro l’epidemia COVID-19. Tuttavia, è altrettanto importante utilizzare questi dati e algoritmi in modo responsabile, nel rispetto delle normative sulla protezione dei dati e della privacy. In caso contrario, si rischia di minare la fiducia della popolazione, rendendo meno probabile che le persone seguano i consigli o le raccomandazioni in materia di salute pubblica e contribuiscano al contenimento del contagio.

Nella raccolta di dati si deve applicare il principio di proporzionalità, nel senso che la raccolta dei dati deve (i) essere proporzionale alla gravità della minaccia per la salute pubblica, (ii) essere limitata a quanto necessario per raggiungere uno specifico obiettivo di salute pubblica e (iii) essere scientificamente giustificata. L’accesso ai dati provenienti da dispositivi personali per fini di tracciamento, ad esempio, può essere giustificato solo se avviene entro limiti specifici, ha uno scopo chiaro e nessuna alternativa meno invasiva risulti adatta a tale scopo (ad esempio l’utilizzo di dati di posizionamento mobile anonimi). Inoltre, la sorveglianza sanitaria “fai da te”, così come è stata etichettata dal Garante italiano, deve essere evitata.

Per quanto riguarda l’elaborazione dei dati, è necessario garantire misure di controllo per la qualità e la sicurezza dei dati. La mancanza di integrità dei dati, cosa solitamente comune quando si utilizzano dati provenienti da dispositivi digitali personali, può introdurre piccoli errori in uno o più fattori, che a loro volta possono avere un effetto sovradimensionato sui modelli predittivi su larga scala. Inoltre, le violazioni dei dati, l’insufficiente disidentificazione o i bias nei set di dati possono invalidare i modelli e generare preoccupazioni nella popolazione.

Le sfide relative alla protezione dei dati non sono solo di natura tecnica, ma dipendono anche da decisioni politiche e giudiziarie. Richiedere o garantire l’accesso a dispositivi personali può essere più efficace rispetto al semplice utilizzo di dati di posizionamento mobile anonimi. Specialmente per fini di tracciamento. Tuttavia, richiedere alle compagnie di consentire l’accesso o addirittura di assistere alla decrittazione di dati crittograficamente protetti (analogamente a quanto avvenuto durante la controversia tra l’FBI ed Apple nel 2016) può essere controproducente, soprattutto se gli accordi tra le autorità (inter)nazionali e i fornitori di servizi mancano di trasparenza o di proporzione. Simili rischi valgono per le applicazioni che richiedono agli utenti di registrarsi con i loro nomi o numeri di identificazione nazionali.

Anche se i dati personali possono contenere informazioni preziose sulle interazioni sociali e sui recenti movimenti degli individui infetti, aggirare il consenso degli utenti e il loro diritto alla privacy in nome della sorveglianza sanitaria può alimentare sfiducia, diffidenza e, in ultima analisi, rivelarsi svantaggioso. Questo rischio è ancora maggiore in Paesi in cui i cittadini ripongono un livello di fiducia molto più basso nel loro governo, come l’Italia, la Francia e gli Stati Uniti. Pertanto, ogni volta che si richiede l’accesso a queste fonti di dati, il pubblico dovrebbe essere adeguatamente informato. La segretezza riguardo all’accesso e all’utilizzo dei dati deve essere evitata. Le autorità competenti devono perseguire una comunicazione pubblica trasparente sul trattamento dei dati per il bene comune. Gli accordi sul trattamento dei dati, ad esempio, devono riportare in modo trasparente quali dati sono trasmessi a terzi e per quale scopo.

I rapporti da Taiwan mostrano un modo promettente di sfruttare l’analisi dei grandi dati per rispondere alla crisi di COVID-19 senza alimentare la sfiducia dell’opinione pubblica. Le autorità taiwanesi hanno integrato il loro database nazionale di assicurazione sanitaria con i dati storici dei viaggi provenienti dai database doganali per aiutare l’identificazione dei casi. Altre tecnologie come la scansione dei codici QR e la reportistica online sono state utilizzate anche a scopo di contenimento. Queste misure sono state combinate con strategie di comunicazione pubblica che prevedono frequenti controlli sanitari e incoraggiamento per le persone in quarantena [12].

L’articolo 9 del Regolamento Generale sulla Protezione dei Dati (GDPR) offre una solida base per bilanciare la privacy dei dati e la salute pubblica. Questo articolo ammette il trattamento dei dati personali “per motivi di interesse pubblico nel settore della sanità pubblica, come la protezione contro gravi minacce per la salute a carattere transfrontaliero”, a condizione che tale trattamento sia proporzionato allo scopo perseguito, rispetti l’essenza del diritto alla protezione dei dati e salvaguardi i diritti e le libertà della persona interessata.

Dati e algoritmi sono tra le nostre migliori frecce nel nostro arco. Se usati correttamente.

Bibliografia:

Scarpino SV, Petri G. On the predictability of infectious disease outbreaks. Nat Commun. 2019 Feb 22;10(1):898.

Wheeler NE. Tracing outbreaks with machine learning. Nat Rev Microbiol. 2019 May;17(5):269.

Wu JT, Leung K, Leung GM. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: a modelling study. Lancet. 2020 Feb 29;395(10225):689-697.

Bengtsson L, Gaudart J, Lu X, Moore S, Wetter E, Sallah K, Rebaudet S, Piarroux R. Using mobile phone data to predict the spatial spread of cholera. Sci Rep. 2015 Mar 9;5:8923.

Bates M. Tracking Disease: Digital Epidemiology Offers New Promise in Predicting Outbreaks. IEEE Pulse. 2017 Jan-Feb;8(1):18-22.

GSMA Guidelines on the Protection of Privacy in the Use of Mobile Phone Data for Responding to the Ebola Outbreak, 19 Nov 2014

To curb covid-19, China is using its high-tech surveillance tools, The Economist, 29-02-2020

Mozur, P., Zhong, R. & Krolik, A. (2020) In Coronavirus Fight, China Gives Citizens a Color Code, With Red Flags, The New York Times.

European Data Protection Board. Statement by the EDPB Chair on the processing of personal data in the context of the COVID-19 outbreak, 16 March 2020.

Ward PR. Improving Access to, Use of, and Outcomes from Public Health Programs: The Importance of Building and Maintaining Trust with Patients/Clients. Front Public Health. 2017 Mar 8;5:22.

OECD. Government at a Glance 2019 (2019).

Wang CJ, Ng CY, Brook RH. Response to COVID-19 in Taiwan: Big Data Analytics, New Technology, and Proactive Testing. JAMA. 2020 Mar 3.

About the Author

AIRI CLIP
Siamo un gruppo di medici, biologi, e ricercatori. Scriviamo in associazione con AIRIcerca in capacità privata (non rappresentiamo le rispettive istituzioni!) nel tentativo di aiutare i medici italiani che stanno affrontando l’epidemia Covid19. Controlliamo costantemente la letteratura scientifica e forniamo brevi riassunti in italiano peer-reviewed (troverete per ogni riassunto il nome di chi lo ha scritto e chi lo ha revisionato). Per agevolare la ricerca delle informazioni, assegnamo delle parole-chiave ad ogni riassunto. Speriamo in questo modo di fornire una versione concisa e in italiano di quanto di nuovo ha da offrire la letteratura scientifica sull’epidemia.

Be the first to comment on "Sull’uso responsabile dei dati digitali per affrontare la pandemia di Coronavirus (COVID-19)"

Leave a comment

Your email address will not be published.