Skip to content

Méthodologie d'Analyse Environnementale

24/04/2026

Une méthodologie hautement granulaire conçue pour isoler les paramètres environnementaux micro-climatiques responsables des apparitions locales de méduses. Cette documentation décrit l'extraction des données et les pipelines statistiques rigoureux du modèle Meduseo.

Phase 1 Extraction de Données Hautement Localisée

Découpage Spatial NetCDF

Contrairement aux modèles traditionnels qui font la moyenne des données sur de vastes polygones régionaux, Meduseo utilise des fichiers NetCDF bruts découpés dynamiquement et accessibles nativement via xarray.

Pour chaque ville, le système forme une zone de délimitation dynamique avec un rayon spatial de 0.15°. Cela restreint l'évaluation à environ 15 km autour de la côte spécifique, capturant ainsi les microclimats des baies sans dilution par les conditions du grand large.

Sources de Données

Nous exploitons deux piliers principaux de la suite scientifique Copernicus :

  • Réanalyse Atmosphérique ERA5 : Récupérée via l'API CDS à une résolution de 0.25°, couvrant le Vent, la Pression Atmosphérique, la Température et les Précipitations.
  • Environnement Marin Copernicus (CMEMS) : Extrait nativement à une résolution de 0.083°, incluant les indicateurs physiques comme la SST (Température de surface), la Salinité, les Vecteurs de Courants et les Vagues.

Phase 2 Classifications Statistiques

Formulation de la Cible : Qu'est-ce qu'un "Jour à Méduses" ?

Pour chaque zone localisée, les utilisateurs de Meduseo soumettent des signalements allant de 0 (Clair) à 4 (Forte présence). Afin d'attribuer de façon fiable un profil environnemental, l'algorithme calcule la moyenne arithmétique quotidienne de tous les rapports liés à ces coordonnées GPS.

  • Méduses Présentes : Si la moyenne > 1.
  • Jour Clair : Si la moyenne ≤ 1.
  • Condition de seuil : Une ville n'est prise en compte pour l'analyse statistique que si elle contient un minimum strict de 10 jours de signalements vérifiés pendant la saison estivale.

> 1

Seuil de Charge Moyen


Phase 3 Tests Statistiques Rigoureux

Test U de Mann-Whitney

Parce que les variables météorologiques (comme la hauteur des vagues) violent souvent les hypothèses de distribution normale, nous utilisons le test non paramétrique de Mann-Whitney. Cet algorithme robuste compare la somme des rangs des valeurs observées lors des jours clairs contre les jours à méduses.

d de Cohen (Effet)

Alors qu'une valeur-p précise si un effet existe, le d de Cohen établit la magnitude du déclencheur environnemental. Calculé via la différence des moyennes relative à l'écart-type groupé, il permet de classer l'impact relatif de chaque variable.

Correction FDR

Tester simultanément plus de 20 variables augmente massivement le risque de faux positifs. Nous gérons cela en passant toutes les valeurs-p par une correction FDR de Benjamini-Hochberg. Seules les métriques satisfaisant à un q < 0.05 sont conservées.


Phase 4 Lexique des Variables Calculées

Chaque analyse évalue l'état quotidien ainsi que les décalages chronologiques (lags). Parce que la physique marine implique une inertie, l'analyse des décalages temporels (1 et 2 jours) nous permet de cartographier les mécanismes de transport environnemental retardés.

Code Variable Nom d'affichage Unité Source & Définition
sst Température de Surface °C Extraction moyenne quotidienne (Copernicus Marine).
msl_mean Pression Atmosphérique hPa ERA5 réduit au niveau de la mer. Indique les activités cycloniques.
salinity Salinité PSU Concentration de sel en surface marine (~5m de profondeur).
current_speed Vitesse du Courant m/s Magnitude dérivée des coordonnées vectorielles (sqrt(uo² + vo²)).
wave_height Hauteur des Vagues m Hauteur moyenne du tiers des vagues les plus hautes (VHM0).
*_lag_1d / 2d Mémoire Temporelle (Lags) - Suivi rétrospectif de l'état environnemental sur 24h et 48h.
*_direction Trajectoires Circulaires ° Statistiques évaluées via des moyennes circulaires évitant la rupture entre 359° et 0°.