Una metodologia altamente granulare progettata per isolare i parametri ambientali e microclimatici responsabili della presenza locale di meduse. Questa documentazione delinea l'estrazione dei dati e le rigorose pipeline statistiche alla base di Meduseo.
Fase 1 Estrazione di Dati Altamente Localizzata
Taglio Spaziale NetCDF
A differenza dei modelli tradizionali che calcolano la media dei dati su vasti poligoni regionali, Meduseo utilizza file NetCDF grezzi tagliati dinamicamente tramite xarray.
Per ogni città, il sistema forma una zona di delimitazione dinamica con un raggio spaziale di 0.15°. Ciò limita la valutazione a un raggio di circa 15 km attorno alla costa, catturando i microclimi specifici di ogni baia.
Fonti di Dati
Sfruttiamo due pilastri principali della suite scientifica Copernicus:
- Rianalisi Atmosferica ERA5: Tramite l'API CDS (risoluzione 0.25°), coprendo Vento, Pressione, Temperatura e Precipitazioni.
- Copernicus Marine Environment (CMEMS): Estratto nativamente a 0.083°, includendo indicatori fisici come SST, Salinità, Correnti superficiali e Onde.
Fase 2 Classificazioni Statistiche
Formulazione del Target: Cos'è un "Giorno di Meduse"?
Per ogni città, gli utenti di Meduseo inviano segnalazioni da 0 (Sereno) a 4 (Forte presenza).
Per attribuire in modo affidabile un profilo ambientale, l'algoritmo calcola la media aritmetica giornaliera di tutti i report relativi a quelle coordinate GPS.
- Meduse Presenti: Se la media è
> 1. - Giorno Sereno: Se la media è
≤ 1. - Requisito di Soglia: Una città è considerata per l'analisi solo se contiene un minimo rigoroso di 10 giorni di segnalazioni verificate durante l'estate.
> 1
Soglia di Carico Medio
Fase 3 Test Statistici Rigorosi
Test U di Mann-Whitney
Poiché le variabili meteorologiche violano spesso le ipotesi di distribuzione normale, utilizziamo il test non parametrico di Mann-Whitney, che confronta la somma dei ranghi dei valori osservati nei giorni sereni rispetto ai giorni con meduse.
d di Cohen (Effetto)
Mentre il p-value specifica se un effetto esiste, il d di Cohen ne stabilisce la grandezza. Calcolato tramite la differenza delle medie rispetto alla deviazione standard aggregata, ci permette di classificare l'impatto di ciascuna variabile.
Correzione FDR
L'esecuzione simultanea di test su 20+ variabili aumenta il rischio di falsi positivi. Gestiamo questo problema applicando la correzione FDR di Benjamini-Hochberg. Solo le metriche con q < 0.05 vengono mantenute.
Fase 4 Lessico delle Variabili Calcolate
Ogni analisi valuta lo stato giornaliero insieme ai ritardi temporali (lags). Poiché la fisica marina comporta un'inerzia, l'analisi a ritroso (1 e 2 giorni) ci permette di tracciare i meccanismi di trasporto ambientale ritardati.
| Codice Variabile | Nome Visualizzazione | Unità | Fonte e Definizione |
|---|---|---|---|
sst |
Temperatura Superficiale | °C | Estrazione della media giornaliera (Copernicus Marine). |
msl_mean |
Pressione Atmosferica | hPa | ERA5 ridotto al livello del mare. Indica le attività cicloniche. |
salinity |
Salinità | PSU | Concentrazione di sale in superficie (~5m di profondità). |
current_speed |
Velocità della Corrente | m/s | Magnitudine derivata da coordinate vettoriali. |
wave_height |
Altezza delle Onde | m | Altezza media del 33% delle onde più alte (VHM0). |
*_lag_1d / 2d |
Ritardi Temporali (Lags) | - | Tracciamento retrospettivo dello stato ambientale a 24 e 48 ore. |
*_direction |
Traiettorie Circolari | ° | Statistiche calcolate tramite medie circolari (evitando il salto tra 359° e 0°). |