Introduzione: l'esposizione della popolazione al particolato atmosferico (PM) è un tema affrontato tipicamente in ambiente urbano, dove è presente una rete di monitoraggio capillare. La stima dell'esposizione in aree sub-urbane e rurali richiede lo sviluppo di approcci alternativi alle misurazioni strumentali. Obiettivi: ottenere stime di PM10 e PM2.5 sull'intero territorio nazionale ad alta risoluzione spaziale e temporale mediante modelli di "machine learning", ovvero modelli statistici che si addestrano sulle osservazioni allo scopo di predire su dati esterni o futuri. Metodi: è stato sviluppato un modello "random forest" a partire da un dataset nazionale composto da molte variabili di natura differente (predittori). I parametri spaziali principali sono: la densità di popolazione, le emissioni industriali, l'uso del territorio, la rete stradale, la quota del terreno, le zone geoclimatiche ed i confini amministrativi. Le variabili spazio-temporali più importanti comprendono: la meteorologia giornaliera, indici di vegetazione, l'altezza dello strato limite atmosferico, le polveri sahariane ed il parametro satellitare AOD ("Aerosol Optical Depth"). A partire dal set completo di predittori, sono state effettuate diverse operazioni di pulizia, "data reduction" e standardizzazione di variabili. Successivamente è stato applicato un modello "random forest" sulle variabili rimanenti, che riduce il problema di "overfitting" e modella fenomeni non lineari e interazioni tra variabili in modo flessibile. Per l'addestramento del modello sono stati utilizzati i dati nazionali delle stazioni di monitoraggio dell'inquinamento. Le prestazioni del modello sono state valutate attraverso tecniche di cross-validazione: dati dei monitor sono stati ripetutamente suddivisi in "training" (su cui addestrare il modello) e "testing" (su cui applicarlo). Risultati : da tali elaborazioni si sono ottenute previsioni spaziotemporali del PM10 e PM2.5 con risoluzione spaziale di 1 km2 e risoluzione temporale giornaliera, per il periodo 2006-2015. Nel caso del PM2.5 si è ottenuta una stima media (2006-2015) di 14 µg/m3, mentre per il PM10 il valore è di 19 µg/m3. Per il PM2.5 la cross-validazione mostra valori complessivi di R2 (% di varianza spiegata) tra 0.70 e 0.81 con un errore medio annuo (calcolato dalle stime giornaliere) compreso tra 5.4 e 8.7 µg/ m3. L'R2 spaziale è nell'intervallo 0.66-0.79 mentre quello temporale varia tra 0.69-0.80. L'analisi dei dati cross-validati mostra un'ottima corrispondenza tra valori di PM osservati e predetti (intercetta ~ 0 e pendenza ~ 1). Conclusioni: i modelli di "machine learning" consentono di assemblare dati eterogenei per generare predizioni ad alta risoluzione spaziale e temporale. Attraverso la cross-validazione è stata verificata la bontà di tali modelli e la loro riproducibilità sull'intero dominio spazio-temporale. Ciò consente di effettuare stime di esposizione in aree non coperte da reti di monitoraggio ambientale.

Modelli di "machine learning" per la stima spaziotemporale del particolato atmosferico in Italia. Il progetto BEEP.

Viegi G;
2018

Abstract

Introduzione: l'esposizione della popolazione al particolato atmosferico (PM) è un tema affrontato tipicamente in ambiente urbano, dove è presente una rete di monitoraggio capillare. La stima dell'esposizione in aree sub-urbane e rurali richiede lo sviluppo di approcci alternativi alle misurazioni strumentali. Obiettivi: ottenere stime di PM10 e PM2.5 sull'intero territorio nazionale ad alta risoluzione spaziale e temporale mediante modelli di "machine learning", ovvero modelli statistici che si addestrano sulle osservazioni allo scopo di predire su dati esterni o futuri. Metodi: è stato sviluppato un modello "random forest" a partire da un dataset nazionale composto da molte variabili di natura differente (predittori). I parametri spaziali principali sono: la densità di popolazione, le emissioni industriali, l'uso del territorio, la rete stradale, la quota del terreno, le zone geoclimatiche ed i confini amministrativi. Le variabili spazio-temporali più importanti comprendono: la meteorologia giornaliera, indici di vegetazione, l'altezza dello strato limite atmosferico, le polveri sahariane ed il parametro satellitare AOD ("Aerosol Optical Depth"). A partire dal set completo di predittori, sono state effettuate diverse operazioni di pulizia, "data reduction" e standardizzazione di variabili. Successivamente è stato applicato un modello "random forest" sulle variabili rimanenti, che riduce il problema di "overfitting" e modella fenomeni non lineari e interazioni tra variabili in modo flessibile. Per l'addestramento del modello sono stati utilizzati i dati nazionali delle stazioni di monitoraggio dell'inquinamento. Le prestazioni del modello sono state valutate attraverso tecniche di cross-validazione: dati dei monitor sono stati ripetutamente suddivisi in "training" (su cui addestrare il modello) e "testing" (su cui applicarlo). Risultati : da tali elaborazioni si sono ottenute previsioni spaziotemporali del PM10 e PM2.5 con risoluzione spaziale di 1 km2 e risoluzione temporale giornaliera, per il periodo 2006-2015. Nel caso del PM2.5 si è ottenuta una stima media (2006-2015) di 14 µg/m3, mentre per il PM10 il valore è di 19 µg/m3. Per il PM2.5 la cross-validazione mostra valori complessivi di R2 (% di varianza spiegata) tra 0.70 e 0.81 con un errore medio annuo (calcolato dalle stime giornaliere) compreso tra 5.4 e 8.7 µg/ m3. L'R2 spaziale è nell'intervallo 0.66-0.79 mentre quello temporale varia tra 0.69-0.80. L'analisi dei dati cross-validati mostra un'ottima corrispondenza tra valori di PM osservati e predetti (intercetta ~ 0 e pendenza ~ 1). Conclusioni: i modelli di "machine learning" consentono di assemblare dati eterogenei per generare predizioni ad alta risoluzione spaziale e temporale. Attraverso la cross-validazione è stata verificata la bontà di tali modelli e la loro riproducibilità sull'intero dominio spazio-temporale. Ciò consente di effettuare stime di esposizione in aree non coperte da reti di monitoraggio ambientale.
2018
Istituto di biomedicina e di immunologia molecolare - IBIM - Sede Palermo
particolato
modelli statistici
epidemiologia
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/350862
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact