Alcune riflessioni sulla qualità dei dati statistici e sul rispetto/rilassamento della normativa attuale sulla privacy

Alcune riflessioni sulla qualità dei dati statistici e sul rispetto/rilassamento della normativa attuale sulla privacy

Contributo di Sergio Brasini

Mai come in questi giorni la comunità degli statistici e, più in generale, dei ricercatori di numerose aree disciplinari si sta prodigando nella messa a punto e condivisione di modelli e strumenti di analisi, per poter essere di aiuto nella comprensione dei ritmi di diffusione della pandemia da Covid-19 e per elaborare previsioni sulla sua probabile evoluzione. Siamo riconoscenti a Protezione civile per aver adottato una politica trasparente e lungimirante di messa a disposizione degli studiosi di dati aggiornati su base giornaliera e già predisposti in formato machine readable. Al tempo stesso, ritengo opportuno fare una riflessione sulla qualità intrinseca di questi dati, perché sappiamo bene che è ormai ampiamente condiviso il cosiddetto principio del garbage in, garbage out.

In una recente intervista Monica Pratesi, Presidente della Società Italiana di Statistica, ha sottolineato come i dati attualmente comunicati da Protezione civile denotino una “assenza di progettazione concettuale” che sia in grado di guidarne poi la comprensione e l’interpretazione, sia da parte del pubblico più vasto dei cittadini, sia soprattutto da parte dei decisori pubblici. La lettura dei molti dati a disposizione è – ricorrendo di nuovo le parole di Pratesi – “spesso confusa, contraddittoria e disorientante”. Vorrei fare a questo proposito alcuni esempi concreti.

Ogni giorno Protezione civile comunica di quanto siano aumentati i pazienti attualmente positivi, lasciandoci presumere che questo dato corrisponda al numero dei nuovi contagiati. Ma non è esattamente così. Per determinare quanti siano davvero i nuovi contagiati del giorno è necessario partire dalla differenza tra pazienti attualmente positivi del giorno medesimo e del giorno precedente, sommando poi le variazioni giornaliere dei deceduti e dei dimessi/guariti. Si tratta di un punto di ambiguità molto rilevante. Proprio sulla base dei numeri parziali relativi ai nuovi contagi giornalieri sono state realizzate nelle ultime settimane molte analisi – talvolta da parte di studiosi di grande autorevolezza – che anche per questo motivo hanno prodotto però esiti modesti.

Una seconda ambiguità riguarda il dato sul numero dei tamponi complessivamente effettuati: non è mai stato chiarito da Protezione civile se anche i tamponi che indicano l’avvenuta guarigione di un paziente (due negativi consecutivi a distanza di 24 ore l’uno dall’altro) siano computati o meno nel conteggio giornaliero. È evidente come per ogni paziente dapprima contagiato e poi guarito vengano eseguiti quindi almeno tre tamponi. Di conseguenza, se davvero anche i tamponi che servono ad accertare la guarigione fossero compresi nel dato comunicato quotidianamente, il numero di persone realmente sottoposte a controllo diverrebbe di molto inferiore rispetto al numero totale dei tamponi effettuati.

Un terzo problema, portato di recente all’attenzione della pubblica opinione da Nino Cartabellotta, Presidente della Fondazione Gimbe, riguarda il conteggio dei dimessi/guariti totali: da questo dato andrebbero eliminati i casi con status di guarigione non noto, ed inoltre sarebbe opportuno distinguere le guarigioni cliniche da quelle virologiche. La categoria dei dimessi/guariti è al momento eterogenea, perché include in realtà quattro tipologie di situazioni:

a) pazienti virologicamente guariti (mediante realizzazione di due tamponi negativi a distanza di 24 ore);

b) pazienti dimessi in via di guarigione virologica (cioè con primo tampone negativo, ma in attesa del risultato del secondo);

c) pazienti dimessi guariti clinicamente (cioè non sottoposti a tampone);

d) pazienti dimessi da un set ospedaliero senza alcun corredo di informazioni sul loro stato di guarigione, sia essa clinica o virologica.

dati statistici coronavirus

Questa situazione deriva da un problema di mancata uniformità della modalità con la quale le Regioni comunicano i dati a Protezione civile, a causa dell’assenza di un modello informatizzato univoco. Da questo punto di vista è emblematico il caso della Regione Lombardia, che nel suo bollettino quotidiano non cita mai il numero delle guarigioni, ma riporta solamente il numero dei pazienti dimessi dall’ospedale o dal pronto soccorso e inviati in isolamento domiciliare. Questi casi confluiscono poi nella voce dimessi/guariti dell’analogo bollettino quotidiano di Protezione civile, determinando un’evidente sovrastima del tasso di guarigione.

Problemi ancora maggiori vanno emergendo per quanto attiene al conteggio del numero dei deceduti per Covid-19. Un recentissimo studio dell’Istituto Cattaneo per i comuni dell’Emilia-Romagna ha chiarito bene i termini del problema (è possibile che non siano state attribuite al virus morti di persone in casa propria, in casa di riposo o in hospice, non essendo mai stato eseguito il test di positività). Analoghe considerazioni sono state proposte da un’indagine promossa nei comuni della Provincia di Bergamo dal quotidiano L’Eco di Bergamo in collaborazione con l’agenzia di ricerca e analisi dei dati InTwig (la differenza rispetto ai dati ufficiali sarebbe legata anche alla sottile distinzione terminologica tra morti “per” oppure “con” Coronavirus). La conseguenza ultima è quella di una probabile fortissima sottostima del dato di Protezione civile.

Un ulteriore aspetto che merita di essere sottolineato è quello relativo alla stima dell’effettivo numero dei contagiati, a causa dei mancati accertamenti diagnostici tramite tampone faringeo per la grande maggioranza dei pazienti asintomatici o paucisintomatici. Questa situazione giustifica di per sé gli attuali valori dei tassi ufficiali di letalità da Covid-19 in alcune Regioni italiane, in primis la Lombardia, molto più elevati di quelli riscontrati in Cina e in altri Paesi occidentali, e da ritenersi assai poco realistici, in quanto sia il numeratore (pazienti deceduti) sia soprattutto il denominatore (pazienti contagiati) risultano largamente sottostimati.

Il tema della qualità e dell’affidabilità dei dati statistici, soprattutto di quelli messi a disposizione da Protezione civile, è cruciale per chi voglia compiere analisi sull’andamento della pandemia in Italia. Come è noto la cosiddetta “curva dei contagiati” non è in generale simmetrica. All’inizio vi sono pochissimi contagiati, poi con il passare del tempo si riscontra un grandissimo numero di persone contagiate, che possono a loro volta divenire veicolo di trasmissione del virus per altri individui sani. Dopodiché l’efficacia dei meccanismi e dei provvedimenti di separazione/distanziamento tra pazienti positivi e persone sane diviene essenziale, al fine di scongiurare nuovi contagi e quindi un forte ritardo nella discesa per così dire naturale della “curva dei contagiati”. Proprio sulla previsione del tempo necessario a raggiungere il momento nel quale ci saranno zero contagi si sono concentrate negli ultimi giorni alcune ricerche (ricordo a titolo di esempio quella promossa dall’Einaudi Institute for Economics and Finance che ha trovato ampia diffusione nel mondo dei media). In un recente intervento Roberto Battiston, già Presidente dell’Agenzia Spaziale Italiana, ha ricordato che “l’approccio di usare i dati già raccolti per estrapolare direttamente il momento in cui ci saranno zero nuovi contagiati rischia di essere molto impreciso e di generare false speranze. Per esempio la curva dei nuovi contagi che viene estrapolata risulta sostanzialmente simmetrica, cosa che è difficilmente comprensibile in un modello epidemiologico”. Dunque le analisi statistiche di tipo puramente estrapolatorio non modellano le modalità con cui procede l’epidemia e mal si prestano all’obiettivo di studiarne l’andamento. Certamente è del tutto condivisibile la famosa massima di George E. P. Box, uno dei numi tutelari della Statistica, secondo la quale “all models are wrong, but some are useful“. Nel caso in questione l’obiettivo appena citato andrebbe perseguito piuttosto mediante l’impiego di modelli epidemiologici, rappresentabili sotto la forma di una serie di equazioni differenziali che collegano tra loro i numeri relativi alle persone sane, alle persone contagiate ma ancora in fase di incubazione, alle persone contagiate e tuttora contagiose, ai guariti e ai deceduti. Cioè proprio le variabili desumibili dai bollettini giornalieri di Protezione civile e sull’attendibilità delle quali ho richiamato in precedenza l’attenzione.

Vorrei soffermarmi infine su un ultimo punto. Di recente ho avuto l’opportunità di leggere suggerimenti e proposte per attività di ricerca in tema di Covid-19 veicolati dal forum della Società Italiana di Statistica. Mi ha colpito in modo particolare un’ipotesi. Cosa accadrebbe se Istituto Superiore di Sanità e Protezione civile, nell’attesa di valutare la reale diffusione del contagio in Italia attraverso un’indagine campionaria da realizzare su scala nazionale mediante la somministrazione di test (a tampone o sierologici) – peraltro assai impegnativa dal punto di vista organizzativo -, fornissero a Istat i codici identificativi di tutti i contagiati in deroga alle norme vigenti sulla privacy? Ebbene, tali codici potrebbero essere collegati all’enorme patrimonio informativo in dotazione a Istat. E di conseguenza potrebbero essere effettuati studi approfonditi sulla condizione occupazionale e professionale dei contagiati stessi, in modo da disporre di importanti indicazioni su quali settori/comparti produttivi riavviare prima di altri, quando giungerà al termine l’attuale fase di distanziamento/contenimento. Inoltre, grazie alla conoscenza dei luoghi di residenza, di lavoro e di studio di ciascun contagiato, potrebbe essere possibile geolocalizzare queste informazioni e aggregarle ad un livello di dettaglio molto fine (ad esempio a livello di sezione di censimento), mettendole a disposizione di tutta la comunità dei ricercatori esterni e ponendo così le basi per la stima di modelli “spazio-temporali” ad elevata capacità predittiva sull’andamento della pandemia. Il tutto potrebbe avvenire a costi assai ridotti se paragonati a quelli di un’indagine campionaria da coordinare sul territorio con il coinvolgimento di personale medico e sanitario. Ma sarebbe un’operazione eticamente sostenibile quella di derogare rispetto alla normativa vigente in tema di privacy? Fino a che punto potrebbe spingersi la “contrazione” di diritti fondamentali della persona, al fine di perseguire la tutela della salute pubblica, anch’essa sancita dalla Costituzione?

Su un fronte del tutto analogo, si discute molto in questi giorni dell’opportunità di tracciare i contatti e gli spostamenti delle persone potenzialmente contagiose, secondo il cosiddetto “modello coreano”, nonché di quella di valutare la risposta della popolazione italiana – in quanto a comportamento – rispetto alle misure di contenimento adottate per contrastare la diffusione dell’epidemia. Il Governo italiano sta coinvolgendo un gruppo di esperti per mettere a punto soluzioni che potrebbero consentire l’impiego e l’analisi – tra gli altri – dei dati di geolocalizzazione, delle celle telefoniche e dei movimenti delle carte di credito. Il problema più serio da affrontare riguarderebbe anche in questo caso la compatibilità di qualsiasi soluzione con la normativa vigente sulla privacy. I dati in questione proverrebbero da una pluralità di fonti; ma al tempo stesso alcune categorie di dati aggregati non dovrebbero essere disaggregate ulteriormente fino al tracciamento del singolo individuo, pena la violazione del diritto alla riservatezza. Di nuovo si imporranno a breve decisioni che prospettano la soluzione di questioni di rilievo sotto il profilo etico e normativo.

Info sull'autore

ParliamoneOra administrator

Siamo studiosi e ricercatori dell’Università di Bologna accomunati dalla convinzione che una società colta sia meglio equipaggiata per affrontare i problemi di un mondo in rapidissima trasformazione.

1 commento finora

Stefania Vasta ematologa PalermoPubblicato il11:15 pm - Apr 16, 2020

Gentile redazione in effetti vorrei sapere circa il numero dei deceduti di questi quanti al domicilio e quanti dall’ospedale.inoltre di questi lievemente asintomatici al domicilio quanti hanno fatto il tampone e una visita medica completa con parametri vitali .

Lascia una risposta