top of page

Choix d’une méthode de débiaisage : le cas d’indicateurs multivariés

Dernière mise à jour : 7 nov. 2024


Dans un précédent tuto, nous avons vu que les projections climatiques peuvent contenir des erreurs systématiques qui doivent être corrigées avant utilisation. La méthode à utiliser pour ce “débiaisage” peut dépendre notamment des variables étudiées, de l’utilisation envisagée, de la géographique de la région ou encore des ressources disponibles pour le projet. Cet article propose une illustration du choix d’une méthodologie de débiaisage… et des risques si cette étape est négligée.


Notre objectif est le suivant : préparer des projections climatiques en vue de quantifier l’évolution des impacts sanitaires de la chaleur dans une ville du nord de l’Italie.

Avec le réchauffement du climat, les canicules deviennent plus intenses et plus fréquences et les risques pour la santé augmentent. L’impact sanitaire de la chaleur ne dépend pas seulement de la température, l’humidité en particulier est un facteur aggravant. Pour en tenir compte, nous allons utiliser un indicateur qui combine température et humidité : la température de thermomètre mouillé.


Cet indicateur n’est pas simulé directement par les modèles climatiques. Nous allons donc le calculer à partir de deux variables météorologiques standards : la température maximale journalière et l’humidité relative.


Comme nous allons le voir, il faut faire preuve d’une vigilance particulière dans le débiaisage des projections utilisées pour le calcul de ces indicateurs multivariés.


D’abord, pourquoi faut-il débiaiser les projections climatiques ?


Pour cette démonstration, le choix des projections utilisées n’a pas vraiment d’importance : tout se passerait à peu près de la même façon quel que soit le modèle climatique, le projet dont il est issu (Cordex, CMIP5, CMIP6…), les variables ou le lieu… Mais nous allons utiliser des projections climatiques issues du projet EuroCORDEX, plus précisément produites par le modèle de circulation générale britannique HADGEM2-ES combiné au modèle régional danois HIRHAM5.


Comme c’est généralement le cas, les résultats de ce couple de modèles est biaisé. On peut le vérifier facilement en comparant les valeurs qu’il donne sur une période de référence suffisamment longue (ici 1976–2005) aux valeurs réelles sur la même période :


Température maximale observée (ERA5-Land) vs. simulée (HADGEM2-ES/HIRHAM5)
Comparaison de la température maximale simulée (EuroCORDEX) aux valeurs observées (ERA5-Land)

On ne s’attend pas à obtenir exactement la même valeur pour le même jour mais les deux séries devraient avoir les mêmes propriétés statistiques. Ce n’est pas le cas, on s’en aperçoit facilement en comparant les distributions et les quantiles. Le graphique quantile-quantile permet notamment de voir que le modèle sous-estime généralement la température mais la surestime pendant les jours les plus froids.


Avant d’envisager une utilisation des projections, il faut corriger ces erreurs. Nous allons utiliser la méthode CFDt. Il s’agit d’une méthode de débiaisage très largement utilisée, elle a par exemple été employée par Météo France pour créer le jeu de projection débiaisées DRIAS 2014.

Une fois le débiaisage appliqué, les deux séries ont des distributions et des quantiles pratiquement identiques :


Température maximale observée (ERA5-Land) vs. Simulée (HADGEM2-ES/HIRHAM5) après débiaisage (méthode CDFt)
Comparaison de la température maximale simulée débiaisée (méthode CDFt) aux valeurs observées

Les deux séries de températures ne sont toujours pas identiques mais elles présentent des propriétés statistiques très proches, on pourrait donc étudier indifféremment l’une et l’autre et obtenir des résultats comparables.


Si on veut obtenir les températures maximales pour le futur, on va prendre les valeurs simulées dans la période à étudier, par exemple 2071–2100, et appliquer la même correction.


Le problème de la cohérence entre les variables


C’est relativement simple dans le cas où on s’intéresse à une seule variable mais dans notre cas, on souhaite utiliser deux variables : la température et l’humidité.


Il y a un problème : les variables météorologiques ne sont pas indépendantes. Mais la méthode CDFt, comme la plupart des méthodes de débiaisage, est univariée. Il faut donc l’appliquer séparément à chacune des variables qui nous intéresse. Dans ce cas, rien ne garantit que leur relation sera préservée.

Si on reprend notre exemple, on peut utiliser le jeu de données de référence pour voir s’il existe une relation entre l’humidité relative et la température maximale journalière :


Données de référence (ERA5-Land)
L’humidité relative baisse rapidement lorsque la température augmente

Clairement, oui, il existe des liens entre les deux variables. En particulier, l’humidité décroit rapidement quand la température augmente au-delà de 300K ou 25°C environ.


Cette relation a un sens physiquement : plus la température est élevée plus l’air peu contenir de vapeur. L’humidité relative est le rapport de la quantité de vapeur dans l’air à la quantité maximale possible, ou pour le dire plus rigoureusement : la pression de vapeur sur la pressions de vapeur saturante. Sauf s’il y a un apport important de vapeur d’eau, il est normal que l’humidité baisse quand la température augmente.


Refaisons maintenant le même graphique avec les séries de température et d’humidité débiaisées. Que voit-on ?


Simulation + débiaisage (méthode CDFt). Après débiaisage, la relation entre les variables est moins nette.
Après débiaisage, la relation entre les variables est moins nette

La relation entre les deux variables est beaucoup moins marquée. La baisse rapide de l’humidité relative quand la température maximale dépasse 25°C semble avoir disparue…


Le risque : produire des résultats faux


Lorsqu’on calcule des indicateurs multivariés, la perte des relations entre les différentes variables peut gravement fausser les résultats.


Dans notre exemple, on souhaite évaluer les valeurs maximales de la température humide. La baisse rapide du taux d’humidité avec la température maximale journalière, observée dans les données de référence, va avoir un effet modérateur : lorsqu’il fait chaud, l’air est en général plus sec, ce qui limite l’impact de la chaleur sur le confort et la santé.


Avec les données corrigées, cette relation s’est perdue. Dans les données de référence, on voit notamment qu’il est rare d’avoir un taux d’humidité supérieur à 50% quand la température maximale dépasse 310K (environ 37°C) mais avec les données corrigées, ce n’est plus le cas…


Les projections débiaisées de température et d’humidité sont bonnes indépendamment l’une de l’autre mais leur décorrélation conduit à surestimer la probabilité qu’un jour chaud soit aussi humide. Donc à fausser notre résultat : on risque de surévaluer les extrêmes de température humide.


Comme dans cet exemple, l’utilisation des méthodes de débiaisage classiques, univariées pour la plupart, dans le calcul d’indicateurs multivariés ne permet pas de réduire de façon fiable les biais et peut même les augmenter.

Or dans l’agronomie (modèle de croissance, sécheresse des sols…), l’industrie (capacité de refroidissement, production solaire…), les risques (indicateurs de confort thermique, indice forêt-météo…) et bien d’autres domaines, il existe de nombreux indicateurs multivariés.


Le débiaisage multivarié


Pour ce type d’études, il est indispensable d’utiliser une méthodologie de débiaisage adaptée. Il existe deux solutions :

  • Soit choisir une méthode de débiaisage qui conserve les relations entre les différentes variables, par exemple dOTC ou MRec.

  • Soit reconstruire les relations entre variables après le débiaisage, c’est le principe de méthodes comme R²D² ou MBCn.


Pour notre exemple, utilisons la méthode R²D². Celle-ci consiste dans un premier temps à appliquer un débiaisage univarié (souvent CDFt) puis à réorganiser les valeurs obtenues pour parvenir à des combinaisons cohérentes entre les différentes variables (méthode de Schaake) :


Données de régérence ERA5-Land, simulation + débiaisage méthode CDFt, débiaisage + reconstruction de la cohérence intervariale méthode R2D2. Illustration de la méthode R2D2 : débiaisage univarié puis Schaake shuffle
Illustration de la méthode R2D2 : débiaisage univarié puis Schaake shuffle

Au terme de ce processus, l’allure des résultats sur la période de référence est beaucoup plus satisfaisante. On peut maintenant appliquer les mêmes transformations (débiaisage + réorganisation) aux simulations sur la période future étudiée.


Il faut noter que la recherche sur les méthode de débiaisage multivariée est récente : toutes les méthodologies citées en exemple ont été proposées après 2018. Les cas d’usage sont encore assez rares et aujourd’hui la plupart des projections accessibles ne sont pas débiaisées (par exemple l’atlas du GIEC) ou sont débiaisées avec une méthode univariée (par exemple DRIAS 2014 ou 2020).


Si vous voulez utiliser ces données pour calculer un indicateur multivarié, il vous faudra donc effectuer vous-même le débiaisage avec une méthode adaptée…


 

👋Merci d’avoir lu jusqu’ici. Nous nous efforçons de partager notre expertise et nous espérons que vous avez appris des choses. Mais soyons réalistes : même avec nos tutos, évaluer de façon fiable les effets du changement climatique sur un territoire ou une activité est un exercice complexe, et certainement pas accessible à tout le monde…


Callendar est un des rares organismes en France qui peut accompagner efficacement les entreprises dans la réalisation de projections climatiques à la fois adaptées à leurs besoins et conformes aux bonnes pratiques scientifiques. Si vous avez un projet, contactez-nous pour en discuter !


bottom of page