Archivio dei tag Epidemiologia

Alcune riflessioni sulla qualità dei dati statistici e sul rispetto/rilassamento della normativa attuale sulla privacy

Contributo di Sergio Brasini

Mai come in questi giorni la comunità degli statistici e, più in generale, dei ricercatori di numerose aree disciplinari si sta prodigando nella messa a punto e condivisione di modelli e strumenti di analisi, per poter essere di aiuto nella comprensione dei ritmi di diffusione della pandemia da Covid-19 e per elaborare previsioni sulla sua probabile evoluzione. Siamo riconoscenti a Protezione civile per aver adottato una politica trasparente e lungimirante di messa a disposizione degli studiosi di dati aggiornati su base giornaliera e già predisposti in formato machine readable. Al tempo stesso, ritengo opportuno fare una riflessione sulla qualità intrinseca di questi dati, perché sappiamo bene che è ormai ampiamente condiviso il cosiddetto principio del garbage in, garbage out.

In una recente intervista Monica Pratesi, Presidente della Società Italiana di Statistica, ha sottolineato come i dati attualmente comunicati da Protezione civile denotino una “assenza di progettazione concettuale” che sia in grado di guidarne poi la comprensione e l’interpretazione, sia da parte del pubblico più vasto dei cittadini, sia soprattutto da parte dei decisori pubblici. La lettura dei molti dati a disposizione è – ricorrendo di nuovo le parole di Pratesi – “spesso confusa, contraddittoria e disorientante”. Vorrei fare a questo proposito alcuni esempi concreti.

Ogni giorno Protezione civile comunica di quanto siano aumentati i pazienti attualmente positivi, lasciandoci presumere che questo dato corrisponda al numero dei nuovi contagiati. Ma non è esattamente così. Per determinare quanti siano davvero i nuovi contagiati del giorno è necessario partire dalla differenza tra pazienti attualmente positivi del giorno medesimo e del giorno precedente, sommando poi le variazioni giornaliere dei deceduti e dei dimessi/guariti. Si tratta di un punto di ambiguità molto rilevante. Proprio sulla base dei numeri parziali relativi ai nuovi contagi giornalieri sono state realizzate nelle ultime settimane molte analisi – talvolta da parte di studiosi di grande autorevolezza – che anche per questo motivo hanno prodotto però esiti modesti.

Una seconda ambiguità riguarda il dato sul numero dei tamponi complessivamente effettuati: non è mai stato chiarito da Protezione civile se anche i tamponi che indicano l’avvenuta guarigione di un paziente (due negativi consecutivi a distanza di 24 ore l’uno dall’altro) siano computati o meno nel conteggio giornaliero. È evidente come per ogni paziente dapprima contagiato e poi guarito vengano eseguiti quindi almeno tre tamponi. Di conseguenza, se davvero anche i tamponi che servono ad accertare la guarigione fossero compresi nel dato comunicato quotidianamente, il numero di persone realmente sottoposte a controllo diverrebbe di molto inferiore rispetto al numero totale dei tamponi effettuati.

Un terzo problema, portato di recente all’attenzione della pubblica opinione da Nino Cartabellotta, Presidente della Fondazione Gimbe, riguarda il conteggio dei dimessi/guariti totali: da questo dato andrebbero eliminati i casi con status di guarigione non noto, ed inoltre sarebbe opportuno distinguere le guarigioni cliniche da quelle virologiche. La categoria dei dimessi/guariti è al momento eterogenea, perché include in realtà quattro tipologie di situazioni:

a) pazienti virologicamente guariti (mediante realizzazione di due tamponi negativi a distanza di 24 ore);

b) pazienti dimessi in via di guarigione virologica (cioè con primo tampone negativo, ma in attesa del risultato del secondo);

c) pazienti dimessi guariti clinicamente (cioè non sottoposti a tampone);

d) pazienti dimessi da un set ospedaliero senza alcun corredo di informazioni sul loro stato di guarigione, sia essa clinica o virologica.

dati statistici coronavirus

Questa situazione deriva da un problema di mancata uniformità della modalità con la quale le Regioni comunicano i dati a Protezione civile, a causa dell’assenza di un modello informatizzato univoco. Da questo punto di vista è emblematico il caso della Regione Lombardia, che nel suo bollettino quotidiano non cita mai il numero delle guarigioni, ma riporta solamente il numero dei pazienti dimessi dall’ospedale o dal pronto soccorso e inviati in isolamento domiciliare. Questi casi confluiscono poi nella voce dimessi/guariti dell’analogo bollettino quotidiano di Protezione civile, determinando un’evidente sovrastima del tasso di guarigione.

Problemi ancora maggiori vanno emergendo per quanto attiene al conteggio del numero dei deceduti per Covid-19. Un recentissimo studio dell’Istituto Cattaneo per i comuni dell’Emilia-Romagna ha chiarito bene i termini del problema (è possibile che non siano state attribuite al virus morti di persone in casa propria, in casa di riposo o in hospice, non essendo mai stato eseguito il test di positività). Analoghe considerazioni sono state proposte da un’indagine promossa nei comuni della Provincia di Bergamo dal quotidiano L’Eco di Bergamo in collaborazione con l’agenzia di ricerca e analisi dei dati InTwig (la differenza rispetto ai dati ufficiali sarebbe legata anche alla sottile distinzione terminologica tra morti “per” oppure “con” Coronavirus). La conseguenza ultima è quella di una probabile fortissima sottostima del dato di Protezione civile.

Un ulteriore aspetto che merita di essere sottolineato è quello relativo alla stima dell’effettivo numero dei contagiati, a causa dei mancati accertamenti diagnostici tramite tampone faringeo per la grande maggioranza dei pazienti asintomatici o paucisintomatici. Questa situazione giustifica di per sé gli attuali valori dei tassi ufficiali di letalità da Covid-19 in alcune Regioni italiane, in primis la Lombardia, molto più elevati di quelli riscontrati in Cina e in altri Paesi occidentali, e da ritenersi assai poco realistici, in quanto sia il numeratore (pazienti deceduti) sia soprattutto il denominatore (pazienti contagiati) risultano largamente sottostimati.

Il tema della qualità e dell’affidabilità dei dati statistici, soprattutto di quelli messi a disposizione da Protezione civile, è cruciale per chi voglia compiere analisi sull’andamento della pandemia in Italia. Come è noto la cosiddetta “curva dei contagiati” non è in generale simmetrica. All’inizio vi sono pochissimi contagiati, poi con il passare del tempo si riscontra un grandissimo numero di persone contagiate, che possono a loro volta divenire veicolo di trasmissione del virus per altri individui sani. Dopodiché l’efficacia dei meccanismi e dei provvedimenti di separazione/distanziamento tra pazienti positivi e persone sane diviene essenziale, al fine di scongiurare nuovi contagi e quindi un forte ritardo nella discesa per così dire naturale della “curva dei contagiati”. Proprio sulla previsione del tempo necessario a raggiungere il momento nel quale ci saranno zero contagi si sono concentrate negli ultimi giorni alcune ricerche (ricordo a titolo di esempio quella promossa dall’Einaudi Institute for Economics and Finance che ha trovato ampia diffusione nel mondo dei media). In un recente intervento Roberto Battiston, già Presidente dell’Agenzia Spaziale Italiana, ha ricordato che “l’approccio di usare i dati già raccolti per estrapolare direttamente il momento in cui ci saranno zero nuovi contagiati rischia di essere molto impreciso e di generare false speranze. Per esempio la curva dei nuovi contagi che viene estrapolata risulta sostanzialmente simmetrica, cosa che è difficilmente comprensibile in un modello epidemiologico”. Dunque le analisi statistiche di tipo puramente estrapolatorio non modellano le modalità con cui procede l’epidemia e mal si prestano all’obiettivo di studiarne l’andamento. Certamente è del tutto condivisibile la famosa massima di George E. P. Box, uno dei numi tutelari della Statistica, secondo la quale “all models are wrong, but some are useful“. Nel caso in questione l’obiettivo appena citato andrebbe perseguito piuttosto mediante l’impiego di modelli epidemiologici, rappresentabili sotto la forma di una serie di equazioni differenziali che collegano tra loro i numeri relativi alle persone sane, alle persone contagiate ma ancora in fase di incubazione, alle persone contagiate e tuttora contagiose, ai guariti e ai deceduti. Cioè proprio le variabili desumibili dai bollettini giornalieri di Protezione civile e sull’attendibilità delle quali ho richiamato in precedenza l’attenzione.

Vorrei soffermarmi infine su un ultimo punto. Di recente ho avuto l’opportunità di leggere suggerimenti e proposte per attività di ricerca in tema di Covid-19 veicolati dal forum della Società Italiana di Statistica. Mi ha colpito in modo particolare un’ipotesi. Cosa accadrebbe se Istituto Superiore di Sanità e Protezione civile, nell’attesa di valutare la reale diffusione del contagio in Italia attraverso un’indagine campionaria da realizzare su scala nazionale mediante la somministrazione di test (a tampone o sierologici) – peraltro assai impegnativa dal punto di vista organizzativo -, fornissero a Istat i codici identificativi di tutti i contagiati in deroga alle norme vigenti sulla privacy? Ebbene, tali codici potrebbero essere collegati all’enorme patrimonio informativo in dotazione a Istat. E di conseguenza potrebbero essere effettuati studi approfonditi sulla condizione occupazionale e professionale dei contagiati stessi, in modo da disporre di importanti indicazioni su quali settori/comparti produttivi riavviare prima di altri, quando giungerà al termine l’attuale fase di distanziamento/contenimento. Inoltre, grazie alla conoscenza dei luoghi di residenza, di lavoro e di studio di ciascun contagiato, potrebbe essere possibile geolocalizzare queste informazioni e aggregarle ad un livello di dettaglio molto fine (ad esempio a livello di sezione di censimento), mettendole a disposizione di tutta la comunità dei ricercatori esterni e ponendo così le basi per la stima di modelli “spazio-temporali” ad elevata capacità predittiva sull’andamento della pandemia. Il tutto potrebbe avvenire a costi assai ridotti se paragonati a quelli di un’indagine campionaria da coordinare sul territorio con il coinvolgimento di personale medico e sanitario. Ma sarebbe un’operazione eticamente sostenibile quella di derogare rispetto alla normativa vigente in tema di privacy? Fino a che punto potrebbe spingersi la “contrazione” di diritti fondamentali della persona, al fine di perseguire la tutela della salute pubblica, anch’essa sancita dalla Costituzione?

Su un fronte del tutto analogo, si discute molto in questi giorni dell’opportunità di tracciare i contatti e gli spostamenti delle persone potenzialmente contagiose, secondo il cosiddetto “modello coreano”, nonché di quella di valutare la risposta della popolazione italiana – in quanto a comportamento – rispetto alle misure di contenimento adottate per contrastare la diffusione dell’epidemia. Il Governo italiano sta coinvolgendo un gruppo di esperti per mettere a punto soluzioni che potrebbero consentire l’impiego e l’analisi – tra gli altri – dei dati di geolocalizzazione, delle celle telefoniche e dei movimenti delle carte di credito. Il problema più serio da affrontare riguarderebbe anche in questo caso la compatibilità di qualsiasi soluzione con la normativa vigente sulla privacy. I dati in questione proverrebbero da una pluralità di fonti; ma al tempo stesso alcune categorie di dati aggregati non dovrebbero essere disaggregate ulteriormente fino al tracciamento del singolo individuo, pena la violazione del diritto alla riservatezza. Di nuovo si imporranno a breve decisioni che prospettano la soluzione di questioni di rilievo sotto il profilo etico e normativo.

Noi, il SARS-CoV-2 e molto altro: storie di prede e predatori

Contributo di Luca Lambertini

Scrivo queste note per unirmi agli interventi La Salute è Unica di Alessandra Scagliarini, Previsioni, profezie e modelli ai tempi del Coronavirus di Ignazio Drudi e Reazioni a catena diEmanuele Ghedini. In breve, cercherò di spiegare come e perché mi sono inserito nella loro scia.

La Natura ci ha regalato il pianeta che abbiamo, e per ora non sappiamo se un evento del genere sia stato, è o sarà possibile anche altrove, essendo troppi gli interrogativi che attendono ancora una risposta.

Tuttavia, la Natura è anche un killer dotato di una creatività eccezionale, e dispone di un’urna di enormi dimensioni piena di palline di tutti i colori. E ogni colore (ad esempio, il grigio) può avere non 50 ma infinite sfumature, e questo vale anche per le palline dipinte per non-colori come il bianco e il nero. Stavolta la Natura ha estratto una pallina decisamente nera, per quanto non la più nera di tutte.

Cosa c’entriamo noi? Be’, la stiamo sfidando a farlo da decenni, in particolare dalla ricostruzione iniziata dopo la fine della Seconda Guerra Mondiale, che ha segnato un’accelerazione e un’intensificazione dei nostri maltrattamenti all’indirizzo del pianeta, iniziati due secoli e mezzo fa abbondanti, con la prima rivoluzione industriale.

L’estrazione delle palline è sempre avvenuta, ma quello che stiamo facendo aumenta la probabilità che (a) la Natura ne estragga una nera, (b) il nero di cui è dipinta sia più intenso, e (c) questo tipo di estrazione diventi più frequente.

In questi anni – ma sarebbe stato meglio iniziare molto prima – stiamo discutendo di ciò che dovremmo fare per realizzare i contenuti programmatici dell’Accordo di Parigi affinché tra ottant’anni non accada qualcosa di irreparabile. Come dire che sappiamo – e con “sappiamo” mi riferisco alle conoscenze scientifiche di cui siamo in possesso, non a qualcosa che “crediamo sia vero” – a cosa andiamo incontro, e abbiamo tre decenni per rimediare. Quello che stiamo vivendo ora è un evento diverso, perché a una data qualsiasi una pandemia ha una probabilità molto bassa di verificarsi, ma è quasi certo che si verifichi nel lungo periodo (a patto che sia sufficientemente lungo).

Ed è una risposta probabilistica della Natura al nostro atteggiamento ingrato e anche scandalosamente miope, considerando appunto che collettivamente non pensiamo praticamente mai al fatto che possa aumentare la probabilità di cui sopra. Tutto questo vuol dire che la nostra posizione politica, scientifica ed economica nei confronti della pandemia che ci sta colpendo fa parte integrante del volume di riflessioni e azioni che dobbiamo sviluppare per affrontare e risolvere il problema del mutamento climatico, sotto il cui ombrello rientrano la governance di un sistema economico globale, il progresso tecnico, le migrazioni, la siccità, la carestia, la diseguaglianza

Non siamo disarmati. In particolare, sappiamo rappresentare la dinamica di un’epidemia o di una pandemia con strumenti matematici analoghi a quelli che, oltre a descrivere la reazione a catena in un reattore o la crescita di una popolazione biologica limitata solo dalla capacità di sostentamento del suo habitat naturale, catturano anche la diffusione di innovazioni e dei messaggi pubblicitari in una popolazione di consumatori.

E fanno anche di più, perché con piccole variazioni descrivono anche l’interazione ostile tra popolazioni biologiche, in quello che è noto come modello “preda-predatore” a partire dai lavori di Alfred Lotka (1925) e Vito Volterra (1931), basati sul lavoro di Verhulst (1838) citato da Ignazio Drudi. Il modello di Lotka e Volterra nasceva per descrivere l’interazione tra (ad esempio) leoni e gazzelle, ma spiega anche il nostro sfruttamento delle risorse naturali.

Con una differenza: mentre i leoni smettono pro tempore di uccidere, noi non smettiamo di sfruttare il pianeta, comportandoci sistematicamente come i cacciatori di bisonti in Nord America e i balenieri nei sette mari, spingendo troppo spesso le specie biologiche oltre l’orlo dell’estinzione.

Il punto è che nel racconto di queste vicende noi siamo i predatori e il resto della vita sulla terra è una lunga serie di prede. In questo momento ci troviamo a ricoprire il ruolo della preda, e il SARS-CoV-2 è il predatore, che ha come unico scopo la propria riproduzione tramite noi.

La variazione sul tema Lotka-Volterra che descrive l’andamento di una epidemia è noto (che io sappia) almeno a partire da Kermack e McKendrick (1927), e contempla una malattia infettiva (il predatore) che percorre come un’onda che prende la forma di un gruppo di individui infetti una popolazione di individui suscettibili (le prede), che possono restare sani (o essere immuni, in piccola percentuale), diventare positivi ed eventualmente guarire, cronicizzarsi o perdere la vita.

La curva logistica al modo di Verhulst, Lotka e Volterra che appare nel primo grafico mostra l’andamento della popolazione suscettibile (S), percorsa dal fronte d’onda infettivo (I). La z sull’asse orizzontale può rappresentare il tempo o lo spazio, o entrambi (perché entrambe le popolazioni evolvono nel tempo ma sono distribuite nello spazio: non voglio tediarvi con dettagli formali).

Il punto (z, S) in cui cambia l’andamento della curva, che da convessa diventa concava (e quindi “rallenta”) è il punto (di flesso) in corrispondenza del quale la logistica raggiunge il massimo tasso di crescita. Poi la popolazione suscettibile continua a crescere, ma, appunto, più lentamente, fino a stabilizzarsi a lungo termine in corrispondenza di una dimensione massima Smax il cui volume può dipendere da molti fattori (tra cui l’intensità e la frequenza delle connessioni interpersonali locali e internazionali, si badi bene). Siccome spesso si discute del “picco”, di cosa si tratta? Non è altro che lo specchio della Figura 1 tradotta in altri termini, quelli che appaiono nel secondo grafico.

Nella Figura 2 appare la curva del tasso di crescita istantaneo dS/dt che caratterizza la logistica della Figura 1, e il tasso massimo viene raggiunto in corrispondenza di S, che è la stessa S corrispondente al flesso della logistica.

Passare per il flesso o raggiungere e poi oltrepassare il picco sono due affermazioni equivalenti, che però non significano che poi il problema sia risolto, perché stabilizzare la dimensione della popolazione aggredita dall’epidemia o pandemia è un processo che richiede tempo. Non sappiamo ancora se stiamo scollinando oppure no, ed è per questo che dobbiamo rimanere in casa il più possibile, perché qualsiasi rilassamento potrebbe avere l’effetto di rimettere in moto la dinamica della pandemia.


Approfondimenti bibliografici

Lotka, A.J. (1925), Elements of Physical Biology, Philadelphia, Williams and Wilkins.
Kermack, W.O. e A.G. McKendrick (1927), “Contributions to the Mathematical Theory of Epidemics”, Proceedings of the Royal society of London, A, 115, 700-721.
Verhulst, P.H. (1838), “Notice sur la loi e la population poursuit dans son accroissement”, Correspondences Mathématique et Physique, 10, 113-121.
Volterra, V. (1931), “Variations and Fluctuationsof the Number of Individuals in Animal Species Living Together”, in R.N. Chapman (a cura di), Animal Ecology, New York, McGraw-Hill.

I denominatori sono importanti! Tasso di letalità e tasso di mortalità per capire l’impatto epidemiologico del Coronavirus

Contributo di Davide Gori

In Palombella Rossa di Nanni Moretti, un ottimo regista italiano,  vi è una scena molto nota e incredibilmente attuale nella quale il protagonista, un ex-funzionario di partito rimasto senza memoria, se la prende con una giornalista schiaffeggiandola ed urlandole: “Ma come parla? Le parole sono importanti!”

Credo che ora più che mai, come sta accadendo in questa epidemia da Coronavirus, questa scena immortali un problema con cui noi tutti ci stiamo confrontando. Affidandoci alla grande informazione sentiamo tranquillamente parlare o leggiamo scritto di mortalità in Italia al “7 o 10%” per il COVID-19, senza effettivamente mai vedere esplicitato che cosa sia il “100” della percentuale.

Questo errore semantico, che è stato compiuto da moltissimi giornalisti in questi giorni (davvero chi è senza peccato scagli la prima pietra!), non può che generare (in coloro che magari masticano i numeri un po’ a fatica) paura e confusione. Fare una distinzione del genere non è, come direbbe Woody Allen, una “questione di semantica prepuziale” da epidemiologi, ma una questione davvero sostanziale per poter chiarire, sia per gli addetti ai lavori che al grande pubblico, quale sia l’impatto attribuibile e vero di un evento sanitario sulla popolazione e che porti all’adozione di misure di Sanità Pubblica efficaci.

In questi giorni siamo tutti sommersi da una mole infinita di dati dell’epidemia, che provengono dalle casistiche ufficiali. Molti di noi, con maggiore o minore competenza, si stanno quindi esercitando nel tentativo di far “cantare” (come si dice nei romanzi polizieschi) i numeri.

La criticità attuale resta nel fatto che, mentre di alcuni dati è molto chiaro il denominatore (come ad esempio nelle misure di letalità) per altri, al momento, il denominatore è sconosciuto, oppure va approssimato sulla base di conoscenze empiriche che stanno solo adesso, e molto a fatica, emergendo da altre esperienze, come quella cinese. Il denominatore, che nel caso di COVID-19 rappresenterebbe il vero numero di persone contagiate, continua a rimanere ignoto o stimato. Guardate ad esempio cosa ha detto Borrelli alcuni giorni fa: ”Troviamo un caso su 10”. Si tratta, tuttavia, di stime. Credibili, ma stime. La virologa Ilaria Capua, qualche giorno fa, in un’intervista a “La Stampa” ha detto che i veri numeri del contagio potrebbero essere, a suo modo di vedere, fino a cento volte superiori.

Cosa sono quindi letalità e mortalità? Perché sono importanti entrambe e perché è importante distinguerle?

epidemia tasso di mortalità

Il “Tasso di mortalità dei casi”, chiamato anche “rapporto di mortalità dei casi” o più banalmente “tasso di letalità” è quello che in epidemiologia si definisce come la percentuale di persone che muoiono per una specifica malattia tra tutti gli individui a cui è stata diagnosticata la malattia in un determinato periodo di tempo.

Il tasso di letalità viene generalmente utilizzato come misura della gravità della malattia ed è spesso usato per la prognosi (ovvero per predire il decorso o l’esito della malattia), dove tassi non molto elevati sono indicativi di esiti non molto gravi. Stante i dati attuali, con il 10.13% del 27 Marzo, l’Italia ha il tasso di letalità peggiore al mondo.

Tuttavia c’è da dire che questo tasso non rispecchia esattamente la gravità vera e “purificata” della malattia. Questa misura infatti non è costante, può variare molto geograficamente tra le popolazioni e nel tempo, a seconda dell’interazione tra l’agente causale della malattia, l’ospite e l’ambiente. Inoltre i trattamenti disponibili e la qualità dell’assistenza al paziente influenzano molto questa misura (in questo caso migliorandola). Parte della variazione potrebbe essere inoltre spiegata dalla diversa composizione della popolazione (ad esempio per età e genere).

Da ultimo l’affidabilità della diagnosi (per ora l’unica che abbiamo al momento validato, ovvero il tampone) potrebbe allo stesso modo essere fonte di variazione. In particolare risulta quanto mai importante non avere troppi falsi positivi – ovvero persone che rientrano erroneamente nel numeratore poiché risultano positive al tampone senza esserlo – o falsi negativi – ovvero persone che NON rientrano erroneamente nel numeratore poiché risultano negative laddove invece sono positive al Coronavirus. Tutte queste misure sono ovviamente influenzate dal numero di tamponi che vengono fatti e soprattutto dalla logica con cui vengono prelevati in campioni di popolazione. Inoltre la questione tamponi è particolarmente spinosa poiché è un’analisi che richiede dei laboratori specializzati per essere fatta (non è un test rapido che può essere condotto da chiunque anche al fuori di un ambiente protetto), misurando la presenza del virus, ma nulla ci dice sullo stato immunitario dei soggetti, argomento che riprenderò fra poco.

Su questa misura dobbiamo inoltre ragionare sul fatto che i numeri che oggi osserviamo sono sempre come un programma televisivo in differita. Ci forniscono la visione ritardata di quanto è accaduto negli ultimi giorni o nelle ultime settimane. Facendo un altro esempio molto semplice, il dato dei nuovi contagi giornalieri ci dice quante persone, più o meno cinque giorni fa (stante le ultime pubblicazioni l’incubazione media della malattia è 5.5 giorni), si sono contagiate e hanno iniziato a sviluppare la malattia.

Il calcolo della letalità differisce quindi estremamente dal calcolo della mortalità. “Tasso di mortalità”, questa locuzione, che come vi sto dicendo dall’inizio viene usata molto più facilmente forse perché sembra più familiare anche nel lessico giornalistico, indica però in epidemiologia una cosa ben precisa e differente dalla letalità. Per tasso di mortalità si intende una misura del numero di decessi (in generale o dovuti a una causa specifica) nella popolazione, e ridimensionato o adattato in base alle dimensioni di quella popolazione, per unità di tempo. In questo senso il tasso di mortalità è, ad esempio, generalmente espresso in unità di decessi per 1000 individui all’anno. Esistono vari tipi di tassi di mortalità:

  1. tassi di mortalità specifici per età: un tasso per una specifica fascia di età;
  2. tasso di mortalità infantile ovvero il numero di decessi nei bambini di età inferiore a 1 anno diviso per il numero di nati vivi nello stesso periodo, in una popolazione specifica;
  3. il tasso di mortalità perinatale ovvero la somma dei decessi neonatali e dei decessi fetali (nati morti) per 1000 nascite.

Nel nostro caso, il numero magico che noi dovremmo calcolare sarebbe un tasso di mortalità specifico. Ma specifico per cosa? Ovviamente per patologia, per COVID-19. E raffrontarlo al tasso di mortalità generale della popolazione nel periodo di tempo considerato, oppure raffrontandolo ad un periodo simile (per esempio al rischio di morire in quella popolazione in quel periodo di tempo, ma in anni precedenti) oppure raffrontandolo ad una popolazione simile. Questo quindi non ci permetterebbe soltanto di misurare un “rischio” di morire, ma anche quanta parte di questo “rischio” sia effettivamente attribuibile alla specifica patologia considerata, vale a dire  COVID-19. Quello che in epidemiologia viene definita una misura di impatto.

Ma a noi, purtroppo ancora, cosa manca? Esatto, manca proprio quello! Un denominatore affidabile. Il sistema di notifica per come sta funzionando adesso, ci sta facendo vedere solo la punta dell’iceberg. Perché quello che non sappiamo è il numero delle persone che, pur essendo venute a contatto con il virus, non hanno sviluppato la malattia  oppure hanno avuto sintomi molto blandi che hanno consentito loro di superare la malattia in tranquillità, magari bollandola come un banale raffreddore e continuando la loro vita in modo inconsapevole (questi soggetti sono chiamati rispettivamente asintomatici e paucisintomatici).

La necessità che in epidemiologia si ha di conoscere questo numero sarebbe impellente. Ma come detto prima, purtroppo, per ora rimane nel libro dei sogni. Perché gli oramai celeberrimi tamponi che tutti noi conosciamo individuano la presenza del virus (ovvero i soggetti infetti al momento del prelievo del tampone) ma nulla ci dicono sugli anticorpi e sulla effettiva immunizzazione del soggetto (ovvero ci darebbero la fatidica riposta non solo sul fatto che il soggetto si sia contagiato ma anche se il suo sistema immunitario abbia risposto e sconfitto il nemico e quindi conservi, almeno per un po’, la famosa memoria).

A seconda dei numeri che vi ho snocciolato prima, quelli di Borrelli o della Capua, capite quindi adesso bene perché il tasso di letalità (che abbiamo detto si calcola dividendo il numero dei decessi per il numero dei casi e poi moltiplicandolo per 100) si trasformerebbe dal 10,13% ad un tasso di mortalità del 1,01% (stante le stime del Capo della Protezione Civile) o del 0,10% (stante le stime della collega Ilaria Capua). Ragionando anche sulle altre misure, esse cambierebbero drasticamente, spostando sempre di uno o due posizioni la virgola, le percentuali di soggetti che richiedono cure ospedaliere o un ricovero in terapia intensiva raffrontate all’intera popolazione suscettibile.

Ma, e questo mi ricorre l’obbligo etico di dirlo, per quanto l’1,01% o lo 0,10% come tassi di mortalità possano anche sembrarci numeri piccoli e rassicuranti, se calcolati sulla Lombardia, che al 31/10/2019 contava 10.085.021 residenti (Fonte dati ISTAT) vuol dire 100.850 o 10.085 morti. In Emilia Romagna invece vorrebbe dire 44.594 morti o 4.459 morti. Questi numeri sono ovviamente qualcosa di assolutamente inaccettabile.

In un caso o nell’altro, capite bene che la diffusione del virus è stata molto più rapida di quanto abbiamo finora ipotizzato. E molti nemmeno si sono accorti di averlo incontrato. In linea o, stante alcuni articoli recentemente pubblicati, 2 o 3 volte più velocemente di quanto accade con l’influenza stagionale. Portando, in alcune zone, alle situazioni estremamente critiche che stiamo osservando e, come Nazione, patendo.

Frenare la corsa del virus fino ad arrestarlo, questo rimane l’obiettivo e il massimo auspicio di noi tutti. E ognuno può contribuire, eroicamente, nel suo piccolo, rispettando le regole che sono state più volte ripetute: lavarsi spesso le mani, stare a distanza di un metro quando si è obbligati ad uscire, stare in casa e spostarsi solo in condizioni di necessità.

Quindi, in sostanza e riassumendo, sebbene il numero di decessi serva da numeratore per entrambe le misure di cui abbiamo discusso, il tasso di letalità viene calcolato dividendo il numero dei decessi per le persone positive alla patologia mentre quello di mortalità viene calcolato dividendo il numero di decessi per la popolazione a rischio in un determinato periodo di tempo (in questo caso la totalità della popolazione, che di per sé è a rischio essendo tutti noi suscettibili all’infezione di questo nuovo Coronavirus). Le due misure forniscono informazioni molto diverse che vanno capite e interpretate con il pensiero epidemiologico e mediato dalla Statistica Medica.

Tutte queste cose possono risultare un po’ ostiche a chi non mastica molto i numeri. Purtroppo nel mondo epidemiologico non sono (come nella clinica) le persone a parlare. Ma sono i numeri, come vi dicevo all’inizio con la similitudine del romanzo poliziesco, a dover “cantare”. Ma proprio come accade nei polizieschi e nei thriller “se li maltratti abbastanza a lungo, i numeri ti confessano tutto quello che vuoi”.

Per cui, se vorrete leggere consapevolmente i dati, ricordatevi che mai come ora, parafrasando Nanni Moretti in Palombella Rossa: “I denominatori sono importanti!”

Previsioni, profezie e modelli ai tempi del Coronavirus

Contributo di Ignazio Drudi

1. Perché

Ho cominciato ad interessarmi all’andamento del COVID-19 dal 22 febbraio, se devo confessare la motivazione vera, si è trattato di una reazione di irritazione per i titoli e gli annunci che giornali e TV strombazzavano in quei primi giorni, talvolta anche citando autorevoli colleghi, sicuramente travisando il loro messaggio.

Risultato immagini per prime pagine giornali coronavirus

Ovunque si parlava di progressione esponenziale della diffusione del virus con toni da apocalissi prossima ventura. Mi occupo di stime di modelli statistici nella mia attività didattica e di ricerca da (ahimè) quasi 40 anni e quando sento parlare di modelli di crescita esponenziale mi viene l’orticaria.

Dal punto di vista scientifico, non credo che in natura esistano crescite esponenziali o, anche se esistessero, non ci sarebbero osservatori in grado di descriverle e analizzarle.  Ma la seconda motivazione è ancora più soggettiva e per me più importante: da inguaribile illuminista, considero il panico e la paura irrazionale fattori controproducenti per il contenimento della epidemia e sono convinto che la razionalità debba essere il motore di un comportamento prudente e socialmente accettabile.

Infine, una motivazione pro domo mea: almeno nelle informazioni che ci danno i media, non trovo nessuna traccia del contributo che la Statistica potrebbe/dovrebbe dare in questa situazione. Non posso non sottolineare che, per quanto abbia cercato,  nella task force della Protezione Civile non ho trovato nemmeno uno statistico.

2. Il modello

Alla luce di queste motivazioni, ho cominciato a studiare quale tipo di modello potesse essere, allo stesso tempo, sufficientemente efficace, ma anche facile da comunicare ai non specialisti, proprio per cercare di introdurre qualche elemento di razionalità nella difficile situazione che ci troviamo a vivere. Sono ben cosciente che un lavoro scientificamente ineccepibile dovrebbe sviluppare ben altre metodologie, ma come detto, non era questo l’obiettivo

Per questo ho scelto un modello logistico nella formulazione di Verhulst, relativamente semplice da spiegare e ben consolidato in letteratura, più volte utilizzato come “descrittore” di andamenti epidemiologici.

Si tratta di un modello nato in ambito demografico per descrivere la traiettoria di crescita di una popolazione. Anche il modello di Pierre François Verhulst nasce, curiosamente; come una reazione, sia pure garbata, all’ipotesi esponenziale avanzata da Malthus. La frase più famosa che viene attribuita a Verhulst è proprio “L’ipotesi della progressione geometrica regge solo in casi molto speciali

L’idea che sta alla base del modello adottato è che il tasso di riproduzione è proporzionale alla popolazione esistente, ma che il tasso di riproduzione è proporzionale all’ammontare di risorse disponibili. Detto in altri termini, qualunque sistema che contiene una popolazione ha una “carrying capacity” che modella la competizione per le risorse disponibili e che tende limitare la crescita delle popolazioni.

Supponendo che il numero di individui di una popolazione sia una funzione continua del tempo, che ammette derivata continua, si ha che l’incremento della popolazione al variare del tempo può essere rappresentato dalla derivata che, in un modello elementare, si può supporre direttamente proporzionale al numero di individui della popolazione stessa.

Risultato immagini per wiki modello verhulst

Si ha pertanto la seguente equazione differenziale:

con r: parametro di crescita malthusiana

Pertanto se r è una costante la popolazione cresce in maniera esponenziale con pendenza dipendente da r.

Invece, in un ambiente la cui disponibilità di risorse è limitata, si può descrivere l’evoluzione della popolazione utilizzando un coefficiente r che decresce all’aumentare della popolazione: il modello più semplice è

con a e b costanti.

Sostituendo tale funzione nella precedente equazione differenziale si ottiene:

Naturalmente sono possibili formulazioni alternative del modello, ma quella presentata nella forma precedente è agevolmente stimabile dal punto di vista statistico e richiede unicamente la conoscenza dell’ammontare dei casi di contagio

La forma differenziale, inoltra, si presta meglio ad essere divulgata anche tra i non esperti perché la sua rappresentazione grafica mostra un “picco” laddove la soluzione integrata logistica presenta solo un flesso, difficilmente riconoscibile ad occhio e meno comprensibile.

In sostanza, essa si presenta come una sorta di curva a “campana” non sempre simmetrica, con una fase di crescita, seguita da un “plateau” e poi una discesa più o meno “ ripida. Una tale figura è probabilmente ciò che una persona qualsiasi coglie con maggiore immediatezza.

3. Cosa è successo

La pluridecennale frequentazione di stime e modelli mi ha subito restituito, a pelle, un buon feeling con le prime prove e le prime stime. MI sono convinto che il modello “teneva”.

Ma il punto più rilevante è che ho scelto i social network per comunicare quelle che ho chiamato le mie “cabale”. Io avevo sempre utilizzato Facebook e twitter o come fonte di dati per studiare il mood sociale o come mezzo per comunicare con gli amici più stretti o con i familiari.

La sorpresa, che non saprei definire se piacevole o no, è stata una risposta del tutto inaspettata in termini di interesse e di “sete di capire”. I miei tweet hanno avuto fino a 30.000 consultazioni e miei “amici” su Facebook sono passati da alcune decine ad oltre 500.

Speciale Comunicazione Marketing

Dal punto di vista personale questo comporta un lavoro non banale, mi arrivano richieste di elaborazioni di ogni genere a anche qualche lamentela se per caso un giorno pubblico le mie previsioni con ritardo, ma considero questo sforzo come parte integrante del mio lavoro, che ha non come ultimo obiettivo la diffusione di un po’ di sensibilità statistico-quantitativa nel modo di pensare quotidiano. Credo che i colleghi delle varie discipline “scientifiche” (sciocca antinomia con “umanistiche” e/o “sociali) capiscano bene cosa intendo dire.

Chissà se fra i diversi cambiamenti che questa epidemia introdurrà nel nostro modo di vivere  non si possa annoverare anche un piccolo miglioramento del rapporto tra scienza e società, soprattutto in Italia, convincendo noi ad essere migliori divulgatori di ciò che sappiamo e i nostri concittadini a non chiudere occhi e orecchie quando si presenta o si parla di numeri. 

Se così fosse, sarei orgoglioso di aver portato la mia piccola pietruzza.

Reazioni a catena: il COVID-19 e la Cinetica dei Reattori Nucleari per capire il tasso netto di riproduzione

Contributo di Emanuele Ghedini

Sebbene sembrino apparentemente distanti, le discipline della Fisica dei Reattori Nucleari e l’Epidemiologia hanno in realtà almeno una cosa che le accomuna: il concetto di reazione a catena.

È certamente vero che l’oggetto principale delle due discipline, il nocciolo di un reattore a fissione e una popolazione soggetta a contagio epidemico, sono due sistemi radicalmente differenti; eppure la loro fenomenologia è definita dal comportamento di due entità elementari, parte di quei sistemi, la cui scomparsa o moltiplicazione avviene a seconda della tipologia di interazione con l’ambiente circostante.

Queste due entità sono il neutrone e la persona contagiata da patologia trasmissibile, la cui numerosità è espressa rispettivamente da due grandezze fisiche: il flusso neutronico (cioè i neutroni che attraversano ogni secondo un particolare punto) e il numero di casi di persone contagiate. Il neutrone si moltiplica se riesce a indurre una fissione nucleare e scompare se viene assorbito da un nucleo non fissile. Similmente i contagiati si moltiplicano se riescono a venire in contatto con persone suscettibili di contagi, mentre si riducono se guariscono o vengono isolati. Appunto, reazioni a catena.

Questa analogia tra le discipline mi ha messo in una posizione privilegiata per comprendere il lavoro che i colleghi epidemiologi stanno facendo per monitorare e prevedere l’andamento dell’epidemia di COVID-19, essendo io un docente di fisica del reattore nucleare ed avendo familiarità con i sistemi moltiplicanti. Infatti, i modelli matematici usati in epidemiologia sono spesso sottocasi di modelli più complessi che si usano nella cinetica del reattore nucleare.

Infatti, lo scopo dello scienziato e in particolare del modellista è formalizzare matematicamente i meccanismi di interazione tra le entità e il resto del sistema, scrivendo equazioni che mettono in relazione le grandezze fisiche, così da poter fare previsioni sulla base delle condizioni iniziali e stimare alcune grandezze importanti che purtroppo sperimentalmente non si riescono a misurare.

Devo però ammettere che il nocciolo di un reattore nucleare è in un certo senso più semplice da modellare rispetto a una popolazione soggetta ad epidemia. Questo perché il nocciolo è progettato e costruito da noi, che ne conosciamo tutti i dettagli in termini di geometria e di materiali; ma soprattutto perché i neutroni (e i nuclei atomici) si comportano tutti allo stesso modo!

Inoltre, le misure sperimentali possono essere svolte in maniera molto accurata, dandoci conoscenza istantanea dello stato del sistema. Questa prevedibilità (che è anche dovuta al grande numero di entità neutroniche e atomiche per volume) ha permesso ai reattoristi di costruire modelli estremamente sofisticati e matematicamente molto complessi del comportamento di un reattore nucleare e della evoluzione della sua popolazione, sia in termini di neutroni che di nuclei, che va sotto il nome di Cinetica del Reattore Nucleare.

L’oggetto di indagine dell’epidemiologia è invece molto più sfuggente. I comportamenti dei singoli elementi sono infatti decisamente meno prevedibili di quelli di un neutrone e la loro numerosità è molto inferiore. Basti pensare che spesso è il comportamento di pochi singoli a inizio epidemia a definire il contenimento o meno su scala nazionale. Inoltre, effettuare misure per valutare l’effettivo stato di sviluppo del contagio è molto più complicato e i risultati molto meno affidabili. Basti pensare alle incertezze sui test con tamponi per la positività e alla valutazione delle cause dei decessi. Questo pone limiti alle capacità di utilizzare modelli epidemiologici in quanto i dati, sia per crearli che per validarli, sono più incerti.

La prima similitudine che ho visto tra i modelli per reattori nucleari e per l’epidemiologia è l’uso di un indicatore per definire se il sistema vede le sue entità elementari (neutroni o contagiati) aumentare infinitamente, diminuire fino a scomparire, oppure restare costanti in numerosità.

I primi usano il coefficiente di moltiplicazione k, definito come i neutroni che un singolo neutrone presente nel reattore può generare, mentre i secondi il tasso netto di riproduzione R0, definito come il numero di casi che può generare una persona contagiata nella popolazione. Attenzione, perché questi due numeri non ci dicono quanti neutroni o casi di contagio sono presenti al momento, ma solo di quanto varieranno nel tempo. Per esempio, una popolazione che si lava spesso le mani avrà un R0 minore di una popolazione che non se le lava, a prescindere che ci sia o meno una epidemia in atto.

Il criterio per discriminare tra un reattore che aumenta indefinitamente la sua potenza e uno che si spegne è quindi lo stesso che possiamo usare per discriminare se una epidemia si espanderà o scomparirà: k o R0 maggiore o minore di 1. La stazionarietà la si ottiene solamente con k o R0 uguali a 1, ovvero per ogni contagio abbiamo una guarigione.

Per esempio, un contagiato che entra in un paese che ha buone pratiche igieniche (R0 ≤ 1) non darà inizio a nessuna epidemia (anche se in realtà R0 dipende anche dalle caratteristiche di contagiosità del virus stesso e non solo dalle buone pratiche igieniche), così come un neutrone che entra in un sistema sottocritico (k ≤ 1) non darà inizio a nessuna reazione a catena di fissione. Il grafico 1 mostra chiaramente questi tre casi, e in più rende evidente l’andamento esponenziale della curva: in parole povere, ad ogni istante la curva cresce (o cala) un po’ di più rispetto all’istante precedente.

Tutti noi stiamo ora cercando di capire quando questa epidemia smetterà di crescere, cioè quando R0 arriverà a 1. Ma come capirlo dai dati che possediamo? Possiamo disegnare la curva dei contagiati e cercare capire quando comincerà a curvare di meno verso l’alto. Ma valutare la curvatura di una curva non è molto semplice! Per questo si usano i grafici a scala logaritmica che trasformano le curve esponenziali con R0 costante in rette. Il grafico 2 mostra le stesse curve del precedente in scala logaritmica, nelle quali le curve ora sono rette con diversa pendenza. Dall’inclinazione della retta possiamo stimare esattamente R0: se punta in alto è maggiore di 1, se punta in basso è minore di 1 e se è orizzontale è uguale a 1. Stesso discorso per i reattori nucleari che vengono mantenuti a potenza costante con k = 1;

Dai dati possiamo anche valutare la nostra capacità di applicare le misure di contenimento emanate dal Governo. Prendiamo i grafici in scala logaritmica e valutiamone la pendenza di periodo in periodo: più la retta è orizzontale, più R0 tende a 1. Come esempio, nel grafico 3 trovate la curva dei contagiati attuali per l’Emilia-Romagna che ha continuato ad inclinarsi sempre di più verso R0 = 1 man mano che le misure sono state recepite. L’andamento è promettente, ma c’è bisogno di un ulteriore sforzo per aspettare che le misure prese due o tre settimane fa comincino a mostrare i loro effetti, a causa dei tempi di incubazione e di guarigione medi dei malati.

Ovviamente tutto questo non è scienza esatta, per i motivi sopra detti. Molto dipende da come la popolazione reagisce alle misure. In parole povere il valore di R0 lo decidiamo noi: diversamente dai neutroni noi possediamo la libertà di azione… nel bene e nel male.

Detto con un ultimo grafico, siamo noi che dobbiamo disegnare la parte mancante dell’arcobaleno.

A close up of a map

Description automatically generated