Calcul et traitement des données à l’échelle extrême – au cœur des progrès dans la prévision du temps et du climat

17 avril 2019
  • Author(s):
  • Peter Bauer, Michael C. Morgan, Siham Sbill

Les améliorations survenues dans le passé

Les progrès accomplis dans la surveillance de l’environnement et la prévision numérique du temps et du climat ont suivi de près l’expansion des capacités de calcul. Ces dernières décennies, la puissance des ordinateurs a accru la qualité et le détail des prévisions en permettant d’accroître la résolution spatiale et le réalisme de la représentation des processus physiques, d’inclure davantage de composantes du système terrestre et d’investir dans les techniques d’ensemble afin de caractériser l’incertitude qui entache les conditions initiales et les prévisions (Bauer et al., 2015).

L’affinement des modèles et des techniques d’assimilation a permis d’exploiter au mieux les informations sur le système terrestre. L’assimilation des données est aussi exigeante, sur le plan des calculs, que l’établissement de prévisions et son coût progresse avec le perfectionnement des modèles et la hausse du volume et de la diversité des observations. À mesure que les systèmes de prévision s’amélioreront et que la demande de produits très spécialisés augmentera, la quantité et la diversité des données de sortie grossiront au même rythme que le coût de calcul, sinon plus vite.

Dans le passé, le surcoût était principalement compensé par une expansion comparable de la capacité de calcul et de traitement due à la possibilité d’ajouter des transistors dans les microprocesseurs (loi de Moore) et d’accélérer la fréquence d’horloge à puissance constante (règle de Dennard) tandis que le prix des processeurs baissait. La densité des transistors atteignant une limite physique et la fréquence d’horloge se stabilisant dans le but de restreindre la consommation électrique, la hausse de la performance ne pouvait provenir que d’une parallélisation plus poussée et d’une nouvelle gamme de processeurs qui allient cette connexion à une grande efficacité énergétique. Une bonne part de cette technologie dérive aujourd’hui de produits tels les téléphones mobiles.

Les défis de demain

Dans dix ans, les prévisions classiques du temps en exploitation et les projections du climat au moyen d’ensembles de modèles couplés du système terrestre à haute résolution pourraient exiger mille fois plus de capacité de calcul et de traitement qu’aujourd’hui (Wehner et al., 2011). Le perfectionnement des composants matériels ne saurait répondre à une telle hausse. Des changements profonds devront survenir dans les méthodes mathématiques, numériques et statistiques, mais aussi dans les techniques de programmation afin que le plan des diverses opérations qui composent la prévision numérique puisse être optimisé sur les nouvelles catégories de processeurs, allant des unités centrales, processeurs graphiques et circuits logiques aux circuits à application spécifique (Schulthess, 2015). La diversité des opérations pourrait encore croître, le principal défi pour toute application étant alors d’exploiter le potentiel offert par le matériel de demain.

La consommation maximale d’électricité impose une limite sérieuse au calcul intensif. Les systèmes actuels de plusieurs pétaoctets (tels les superordinateurs dont la performance de pointe atteint 1 015 opérations en virgule flottante par seconde) consomment O (106) watts par an, ce qui revient à O (106) dollars É.‑U. pour l’alimentation et le refroidissement (où O désigne l’ordre de grandeur). L’hypothèse retenue aujourd’hui lorsqu’on bâtit la plupart des centres de calcul à haute performance est que le budget total d’électricité n’excédera pas O (20 MW), ce qui est loin de correspondre à la multiplication par mille mentionnée plus haut. La simple acquisition de plus gros ordinateurs n’est donc pas une solution abordable.

La circulation des données est un aspect crucial du calcul intensif: le mouvement sur une même puce consomme à peu près dix fois plus d’énergie que l’exécution d’un calcul, et le passage d’une puce à l’autre coûte dix fois plus que le mouvement sur une même puce (Kogge et Shalf, 2013). Un autre aspect est la façon de gérer les données le long des opérations, de l’entrée des observations à la sortie des modèles, pour réaliser un prétraitement et un post-traitement efficaces qui, tout à la fois, minimise le déplacement des données, réduit l’espace de stockage et garantit la production continue de prévisions. Tandis que les défis liés au calcul et au traitement des données augmentent énormément, les exigences associées à la possibilité d’utilisation et à la rapidité d’accès tendent à décroître.

Davantage d’utilisateurs veulent plus d’informations plus vite, ce qui met à rude épreuve la capacité de traitement. Il faudra investir à la fois dans les solutions centralisées et dans les technologies en nuage, de manière à rapprocher les applications de l’emplacement de grands volumes de données de prévision et à bien répartir sur une large gamme de plates-formes les opérations coûteuses d’analyse et de post-traitement axées sur les besoins des utilisateurs.

Et l’intelligence artificielle?

Data collection

Le renouveau de l’intelligence artificielle stimulé par des applications commerciales à grande échelle a ouvert la voie à des gains d’efficacité indispensables. De grandes sociétés comme IBM et Microsoft (qui soutient AccuWeather) se vantent d’offrir à leurs clients des solutions extrêmement ciblées, à partir des produits émanant de centres opérationnels nationaux et internationaux et des prévisions établies par leurs soins. C’est maintenant possible parce que des processeurs spécialisés sont assemblés à grande échelle et parce que des programmes d’apprentissage profond sont capables d’effectuer un tri parmi de grands volumes de données, issues de modèles ou d’observations, afin d’extraire l’information qui intéresse la prévision météorologique.

Il est peu probable que l’apprentissage profond remplace les systèmes de prévision basés sur la physique, car le nombre de degrés de liberté et le caractère non linéaire du système terrestre exigeraient des réseaux neuronaux d’une grande complexité qu’il serait difficile de former et, éventuellement, impossible d’exploiter sur ordinateur (Düben et Bauer, 2018). Une partie du défi lié aux réseaux de neurones artificiels, si l’on vise des produits mondiaux valides à l’échelle moyenne, saisonnière ou climatologique, sera de produire des prévisions cohérentes sur le plan physique en respectant des budgets précis et la conservation des flux. Le défi est d’autant plus grand qu’il faut gérer les erreurs et les biais que peuvent renfermer les données d’apprentissage.

L’emploi de telles techniques pour le prétraitement des données d’observation et le post-traitement des sorties de modèles peut cependant aider à répartir la charge de traitement le long du flux de production, à extraire efficacement les informations utiles de grands volumes de données et à réduire la charge de calcul de certains composants des modèles de prévision en les remplaçant par des réseaux neuronaux. Ces applications donnent lieu à d’intenses recherches, mais elles ont déjà été testées dans le passé (Lee et al., 2018; Hsieh et Tang, 1998).

Les recherches en cours

Les difficultés mentionnées empêchent d’étendre la capacité de prévoir le temps et le climat. La prise de conscience du problème a conduit à lancer des initiatives de recherche et d’innovation de grande ampleur dans beaucoup de pays développés, accompagnées d’un large financement public et public-privé. Les activités du Ministère américain de l’énergie ou les projets de l’Union européenne en sont des exemples, auxquels s’ajoutent les travaux conduits par de nombreux organismes de prévision météorologique aux États-Unis d’Amérique, au Japon, en Chine et en Europe.

Vu la complexité des enjeux, les milieux de la recherche doivent collaborer étroitement avec les spécialistes des technologies de l’information, et le monde de la météorologie et la climatologie doit collaborer étroitement avec les secteurs d’impact que sont l’eau, l’énergie, l’alimentation, l’agriculture ou la gestion des risques. La concertation et la recherche de pointe en science et en technologie sont au cœur du projet phare européen ExtremeEarth qui doit apporter des capacités de prévision sans précédent dans ce nouveau domaine.

Il va sans dire que de tels défis contribuent à creuser le fossé entre les pays développés et le monde en développement, car ils exigent des compétences très précises, la concertation entre la recherche et l’industrie et un solide appui technologique pour le logiciel comme pour le matériel. C’est alors que la collaboration internationale soutenue par des organisations comme l’OMM est cruciale pour réaliser des économies d’échelle viables et favoriser le transfert de connaissances entre différents domaines techniques ainsi qu’entre les pays et les continents.

Le rôle de l’OMM

L’Organisation doit adopter une stratégie claire face à la nécessité d’une action concertée des spécialistes de la météorologie et la climatologie et des experts des sciences informatiques. Une telle action viserait à élaborer et mettre en commun des méthodes et techniques permettant de produire des prévisions avec un bon rapport coût-efficacité et de recueillir/échanger de grands volumes de données avec des systèmes de plus en plus complexes de prévision haute résolution à toutes les échelles.

Les éléments suivants sont recommandés pour revoir la stratégie en la matière:

  • Mise en place de méthodes scientifiques pour étudier les possibilités d’accroître le parallélisme et de réduire la circulation des données lorsqu’on emploie des installations de calcul intensif à une échelle extrême;
  • Appui à la normalisation des structures de code et des modèles de programmation indépendants au profit de l’efficacité et de la lisibilité, mise à profit de la future gamme des technologies au niveau des processeurs et des systèmes comprenant des critères pour le test des codes, l’analyse de la performance et l’évaluation comparative;
  • Mise au point de cadres indépendants de traitement des données pour le prétraitement des observations et le post-traitement des sorties numériques ainsi que la diffusion des produits;
  • Soutien aux infrastructures ouvertes et réparties de calcul et de gestion des données basées sur le nuage pour toutes les étapes de production des prévisions, incluant la simplicité d’accès, la recherche d’informations et la visualisation par les utilisateurs finals;
  • Adaptation des méthodes de l’intelligence artificielle (apprentissage profond, par exemple) en vue de faciliter le traitement de données d’observation très diverses, l’extraction d’informations en fonction de l’utilisateur à partir de sorties de modèles toujours plus complexes et mise au point de substituts de composants de modèles permettant de réduire les coûts de calcul;
  • Appui au renforcement des capacités et à la formation entre les sciences appliquées et les sciences informatiques de sorte à faciliter l’adoption des nouvelles technologies et méthodologies.

Pratiquement tous les domaines d’application dans la prévision du temps et du climat bénéficieront de cette stratégie, les nouvelles capacités de calcul et de traitement des données permettant des découvertes scientifiques, améliorant le rapport coût-efficacité et favorisant le transfert de savoir des experts vers les utilisateurs.

Bibliographie

Bauer, P., A. Thorpe et G. Brunet, 2015: «The quiet revolution of numerical weather prediction», Nature, 525, 47-55.

Düben, P. et P. Bauer, 2018: «Challenges and design choices for global weather and climate models based on machine learning», Geoscientific Model Development, 11, 3999-4009.

Hsieh, W.W. et B. Tang, 1998: «Applying neural network models to prediction and data analysis in meteorology and oceanography», Bulletin of the American Meteorological Society, 79, 1855-1870.

Kogge, P. et J. Shalf, 2013: «Exascale computing trends: Adjusting to the “New Normal” for computer architecture», Computing in Science and Engineering, doi: 10.1109/MCSE.2013.95.

Lee, Y.-J., C. Bonfanti, L. Trailovic, B.J. Etherton, M.W. Govett et J.Q. Stewart, 2018: «Using deep learning for targeted data selection: Improving satellite observation utilization for model initialization», 17th Conference on Artificial and Computational Intelligence and its Applications to the Environmental Sciences, https://ams.confex.com/ams/98Annual/webprogram/Paper333024.html.

Schulthess, T.C., 2015: «Programming revisited», Nature Physics, 11, 369–373.

Wehner, M.F., L. Oliker, J. Shalf, D. Donofrio, L.A. Drummond, R. Heikes, S. Kamil, C. Kono, N. Miller, H. Miura, M. Mohiyuddin, D. Randall et W.‐S. Yang, 2011: «Hardware/software co‐design of global cloud system resolving models», Journal of Advances in Modeling Systems, 3, M10003, 22 p., https://doi.org/10.1029/2011MS000073.

Écrivains:

Peter Bauer, Centre européen pour les prévisions météorologiques à moyen terme, Royaume-Uni

Michael C. Morgan, Université du Wisconsin à Madison, États-Unis d’Amérique

Siham Sbill, Service météorologique national, Maroc

    Partager :