Une méthodologie hautement granulaire conçue pour isoler les paramètres environnementaux micro-climatiques responsables des apparitions locales de méduses. Cette documentation décrit l'extraction des données et les pipelines statistiques rigoureux du modèle Meduseo.
Phase 1 Extraction de Données Hautement Localisée
Découpage Spatial NetCDF
Contrairement aux modèles traditionnels qui font la moyenne des données sur de vastes polygones régionaux, Meduseo utilise des fichiers NetCDF bruts découpés dynamiquement et accessibles nativement via xarray.
Pour chaque ville, le système forme une zone de délimitation dynamique avec un rayon spatial de 0.15°. Cela restreint l'évaluation à environ 15 km autour de la côte spécifique, capturant ainsi les microclimats des baies sans dilution par les conditions du grand large.
Sources de Données
Nous exploitons deux piliers principaux de la suite scientifique Copernicus :
- Réanalyse Atmosphérique ERA5 : Récupérée via l'API CDS à une résolution de 0.25°, couvrant le Vent, la Pression Atmosphérique, la Température et les Précipitations.
- Environnement Marin Copernicus (CMEMS) : Extrait nativement à une résolution de 0.083°, incluant les indicateurs physiques comme la SST (Température de surface), la Salinité, les Vecteurs de Courants et les Vagues.
Phase 2 Classifications Statistiques
Formulation de la Cible : Qu'est-ce qu'un "Jour à Méduses" ?
Pour chaque zone localisée, les utilisateurs de Meduseo soumettent des signalements allant de 0 (Clair) à 4 (Forte présence).
Afin d'attribuer de façon fiable un profil environnemental, l'algorithme calcule la moyenne arithmétique quotidienne de tous les rapports liés à ces coordonnées GPS.
- Méduses Présentes : Si la moyenne
> 1. - Jour Clair : Si la moyenne
≤ 1. - Condition de seuil : Une ville n'est prise en compte pour l'analyse statistique que si elle contient un minimum strict de 10 jours de signalements vérifiés pendant la saison estivale.
> 1
Seuil de Charge Moyen
Phase 3 Tests Statistiques Rigoureux
Test U de Mann-Whitney
Parce que les variables météorologiques (comme la hauteur des vagues) violent souvent les hypothèses de distribution normale, nous utilisons le test non paramétrique de Mann-Whitney. Cet algorithme robuste compare la somme des rangs des valeurs observées lors des jours clairs contre les jours à méduses.
d de Cohen (Effet)
Alors qu'une valeur-p précise si un effet existe, le d de Cohen établit la magnitude du déclencheur environnemental. Calculé via la différence des moyennes relative à l'écart-type groupé, il permet de classer l'impact relatif de chaque variable.
Correction FDR
Tester simultanément plus de 20 variables augmente massivement le risque de faux positifs. Nous gérons cela en passant toutes les valeurs-p par une correction FDR de Benjamini-Hochberg. Seules les métriques satisfaisant à un q < 0.05 sont conservées.
Phase 4 Lexique des Variables Calculées
Chaque analyse évalue l'état quotidien ainsi que les décalages chronologiques (lags). Parce que la physique marine implique une inertie, l'analyse des décalages temporels (1 et 2 jours) nous permet de cartographier les mécanismes de transport environnemental retardés.
| Code Variable | Nom d'affichage | Unité | Source & Définition |
|---|---|---|---|
sst |
Température de Surface | °C | Extraction moyenne quotidienne (Copernicus Marine). |
msl_mean |
Pression Atmosphérique | hPa | ERA5 réduit au niveau de la mer. Indique les activités cycloniques. |
salinity |
Salinité | PSU | Concentration de sel en surface marine (~5m de profondeur). |
current_speed |
Vitesse du Courant | m/s | Magnitude dérivée des coordonnées vectorielles (sqrt(uo² + vo²)). |
wave_height |
Hauteur des Vagues | m | Hauteur moyenne du tiers des vagues les plus hautes (VHM0). |
*_lag_1d / 2d |
Mémoire Temporelle (Lags) | - | Suivi rétrospectif de l'état environnemental sur 24h et 48h. |
*_direction |
Trajectoires Circulaires | ° | Statistiques évaluées via des moyennes circulaires évitant la rupture entre 359° et 0°. |