科技信息快递

2021年

  1. 2023年
  2. 2022年
  3. 2021年
  4. 2020年
  5. 2019年
  6. 2018年
  7. 2017年
  8. 2016年
  9. 2015年
  10. 2014年

第一期

  1. 第一期
  2. 第二期
  3. 第三期
  4. 第四期

原汁原味

首页 > 《科技信息快递》 >2021年>第一期>原汁原味
ECMWF机器学习活动路线图 发布日期 :2023-05-11  

  李婧华 张定媛 编译

 

执行摘要

 

  在过去十年中,人工智能(AI)、机器学习和数据量以前所未有的速度发展,许多学科将需要修改工作模式,使其更加以数据为中心,以充分利用这些发展。在整个数值天气预报(NWP)和气候服务的工作流程中,人工智能和机器学习提供了巨大的机遇,科学界目前正在探索人工智能和机器学习的新能力将如何改变地球系统科学的未来。初步成果显示出巨大的潜力。

  然而,发展的范围和速度也给ECMWF等天气和气候模拟中心带来了挑战,特别是需要建立必要的专门技能,需要开发软件和硬件基础设施,以及在预测工作流程中整合机器学习和常规工具。这些挑战需要在比较短的时间内解决,以跟上天气和气候模拟界以及ECMWF成员国和合作国不断变化的需求。因此,本文件列出了未来十年的路线图,确定了挑战,提供了潜在的解决方案,并确定了将许多研究机器学习用于天气和气候预测的分布式科技项目引导到协调工作中的步骤。虽然由于应用领域的数量和多样性,该路线图并没有为机器学习活动提供科学的工作计划,但它概述了为应对未来的挑战提供更加协调的解决方案的路径,并在不同的机器学习工作之间产生协同作用。

  

人工智能和机器学习将如何改变NWP和气候服务?

 

  地球系统是复杂且非线性的,地球系统数据数以百计,包括观测和模式输出,机器学习为改进天气和气候预测提供了一个非常强大的工具箱。机器学习可以用来提高天气和气候模式的计算效率,从数据中提取信息,或对模式输出进行后处理,特别是如果数据驱动的机器学习方法可以与传统工具相结合的话。对于机器学习来说,在整个NWP和气候服务的工作流程中,以及在ECMWF中,广泛的潜在应用领域显示出巨大的潜力(见图1)。关于后处理,ECMWF将重点支持成员国和合作国开发机器学习工具,并将机器学习用于诊断目的,例如了解预测的动力学和弱点。

 

图1 探索或计划中的ECMWF机器学习应用


  在ECMWF,成功使用复杂机器学习技术的案例数量正在迅速增加,例如深度神经网络和决策树。ECMWF工作流程中的早期成功案例包括使用神经网络对陆面SMOS土壤湿度进行资料同化(Rodríguez-Fernández et al.,2019)和在弱约束4D-Var框架内使用神经网络(Bonavita and Laloyaux,2020)。深度学习已经成功地用于模拟重力波拖曳参数化方案(Chantry et al.,2021),深度学习模拟器可用于生成4D-Var资料同化的切线性和伴随模式代码(Hatfield et al.,2021)。此外,决策树已被用于降水集合预报的后处理(HewsonandPillosu,2020),通过“2020夏季天气代码”项目1,对ECMWF数据服务器的日志进行了异常检测的机器学习研究,检测和预测系统故障。

  

ECMWF在采用和有效利用人工智能和机器学习的挑战,以及如何应对这些挑战

 

   机器学习科学家和地球科学领域科学家往往遵循不同的哲学。前者倾向于解决数据科学问题,针对特定的目标函数进行优化(例如,减少48h时间内降水的均方根误差),而后者通过物理解释和物理一致性(例如,守恒定律或过程反馈)来改进和验证模式。气象科学家有时对机器学习持防御态度,认为新能力是一种威胁,而非工具箱的扩展。这使得沟通和合作变得困难,但这也是气象科学家接受机器学习解决方案的一个障碍,因为他们不相信不提供物理认识的黑匣子方法。尤其是目前应用的许多机器学习架构都是为其他领域开发的,如图像识别,没有将领域知识引入解决方案设计中。有一种风险是,针对特定应用的解决方案将并行开发,而一边是气象科学家,另一边是机器学习科学家,两者之间没有协同作用。

  方法:克服这一障碍需要机器学习科学家和气象科学家之间的密切协作,以开发业务使用的物理一致的机器学习解决方案,充分发挥先进机器学习新工具箱的全部潜力,并补充现有的基于物理的解决方案。将进一步探索可解释的人工智能和基于物理信息的机器学习,其试图将机器学习与物理知识相融合,以实现物理上更一致的解决方案(McGovern et al.,2019; Reichstein et al.,2019)。此外,还将探索可信赖的人工智能,以提高我们对机器学习方法如何工作的认识,并为黑匣子提供一些线索。

  虽然机器学习在地球系统科学中的一些应用在概念上接近于机器学习方法在其他领域的使用(如在模式输出中检测热带气旋,可将其表述为图像识别任务),但许多应用需要定制化机器学习解决方案。例如,物理场通常在球面的非结构化网格上,这无法在空间或时间上进行简单的卷积,而卷积是许多机器学习方法的核心要素。虽然大气模式的垂直维度是结构化的,但物理场在靠近地表和模式顶部仍然表现出非常不同的动力学,这将再次难以应用标准卷积方法。此外,物理场需要遵循物理约束条件,如守恒定律或对正值的限制(如降水)。

  方法:需要针对特定领域问题,开发定制化机器学习解决方案(如在球面的非结构化网格上执行神经网络卷积运算的能力)。这些定制化解决方案可以应用于该领域内的许多不同的机器学习应用,并作为基准解决方案。获得定制化解决方案的最快途径是开发基准数据集和问题集——包括数据集、成本函数和示例解决方案——允许不同团队和机构的机器学习科学家对解决方案进行定量比较(e.g. WeatherBench in Rasp et al.,2020)。

  机器学习工具不应仅仅用于模拟或加速模式组成部分,还应该用于改进模式。这通常需要利用地球系统观测数据来训练机器学习工具,因此,要将模式轨迹与代表相同空间和时间物理情况的观测资料进行比较。然而,从地球系统观测数据中学习是很困难的,因为这些数据稀疏、不规范且不确定,而且是从种类繁多的仪器(包括卫星辐射率)中提取的,通常不能直接与模式场进行比较。

  方法:将模式模拟与地球系统观测联系起来的最佳方法是资料同化。机器学习方法和资料同化有很多共同点,因此,地球系统科学的机器学习在很多情况下适应资料同化的工作流程(Geer,2021)。例如,使用观测误差来表示不同程度的不确定性,使用观测算子从常规模式网格映射到不规则、稀疏的观测值,以及使用物理模式组件或层来对原本的机器学习网络施加物理约束。另一方面,如图1所示,机器学习已经有很多有趣的应用,用于处理结构化数据集,以改进观测数据的处理(例如使用观测算子)和资料同化(例如通过模式或观测偏差的学习)。

  目前需要密切关注从卫星测量到地表制图的工作(通常也是基于机器学习),它们提供了改进陆面参数化的新机会,并可作为接近地表的大气动力学的参考真值。此外,机器学习在从物联网数据和其他数据来源(如交通统计、能源生产和运输分析)提取相关信息以补充目前的地球观测非常重要。物联网数据通常有噪声,数量巨大,因此难以使用传统方法处理。

   训练机器学习工具需要数据。由于机器学习工具的复杂性可以任意增加,机器学习方法准确性的唯一限制是可用于训练的数据量以及计算和数据处理基础设施的限制。更多的数据可以设计出更复杂的机器学习方案。因此,机器学习用户与传统用户相比,会表现出不同的、更急切的数据访问模式,向着更大的、更有选择性的数据访问方向发展(如长期检索全球特定领域的单一内容)。这给ECMWF这样的数据中心带来了巨大的挑战,因为数据的生产和使用已经在传统工作流程中快速增长。

  方法:ECMWF的计算基础设施需要为高性能数据分析(HPDA)和越来越多数据驱动的研究做好准备。这需要认真努力探索未来高性能计算(HPC)异构硬件的能力,以减少处理大量数据时的I/O瓶颈。为了缓冲因机器学习而增加的数据需求,数据工作流程方面要能够方便访问最突出的领域和数据产品,并考虑到数据存储和访问的硬件选择的异构性(例如磁带与磁盘)。对数据访问模式进行预测,因此需要机器学习界的参与。生成能够覆盖大部分用户请求的基准数据集,以及交流已经汇集的现有数据集,应进一步减少个别科学家自行汇集大型数据的需要。

  与NWP和气候服务中的传统方法相比,机器学习在软件和硬件方面都需要一套不同的工。大多数地球系统模式仍然基于Fortran代码,通常在基于CPU的超级计算硬件上运行。另一方面,机器学习工具通常基于Python代码和Python库以及Jupyter笔记本,并在GPU硬件上进行最有效的训练和使用。监督学习的大部分计算成本是由机器学习工具的训练产生的,而工具的应用通常成本效益很高。作为代码重构以提高可移植性的一部分,现在模式正在被重写成特定领域的语言,在某些情况下,也会重写成Python或Julia代码,包括ECMWF集合预报系统(IFS-FVM)的FV版本。然而,这些技术的发展还需要几年的时间才能让大部分领域的科学家接受。

  方法:需要培训,以支持ECMWF的气象科学家开始使用机器学习工具,并促进他们在新的软件环境中顺利开始工作。科学家需要得到高效的工具和定制化解决方案的支持,以便新环境中更容易地迈出第一步(例如将GRIB或netCDF数据读取到Python中)。需要跟踪机器学习软件这个快速发展的领域趋势,并调整解决方案。

  为了能够高效地训练和应用机器学习,还必须提供适合的机器学习硬件,而不是为传统应用优化的基于CPU的标准硬件。这也需要在从台式机到超级计算机的所有计算机硬件上安装相关的机器学习软件。

  由于软件和硬件要求不同,还需要将机器学习工具纳入到传统NWP和气候服务工作流程。例如,将用Python编写的机器学习工具引入集合预报系统(IFS)的Fortran代码中是很困难的,而且在准备新的模式周期用于业务使用时,如何更新需要调整的机器学习工具,目前还没有经验。

  方法:为了减少整体工作量,需要集中的软件解决方案,将机器学习和常规工具整合到ECMWF的工作流程中。气象科学家在应用集中式解决方案时需要得到支持,解决方案需要与ECMWF可扩展性项目在模式可移植性方面的努力保持一致。

  机器学习是一项需要在ECMWF等机构开发和建立的新技能。虽然机器学习的经验仍然有限,但它遍及ECMWF整个工作流程中,这使得在不同环境下(如野火或参数化方案模拟)应用新方法(如复杂的决策树)时,在参与的前沿科学家之间产生协同作用和知识交流具有挑战性。此外,机器学习解决方案仍然很脆弱,因为它们依赖于开发解决方案的科学家个人或外部合作者的专业知识。这使得业务天气预报和气候服务所需的可重复性很难保证。

  方法:为了实现不同机器学习工作之间的协同作用,并保证解决方案的可重复性,需要一个专家团队来指导和支持研究机器学习方法的科学家个人,并组织集中的软件解决方案。

   团队需要努力确定需求,并沟通正在进行的工作以满足这些需求。需要对个人表现出高度的可用性,灵活地应对个人挑战,并尊重现有的组织结构。

 

初步措施

 

  ECMWF与外部伙伴,特别是机器学习专家,进行了大量合作,以探索机器学习在整个NWP流程中的应用潜力。ECMWF科学家在一些国际人工智能会议上发表了特邀演讲,一些机器学习出版物正在准备出版或已经出版。ECMWF设立了人工智能和机器学习协调员的角色,以协调泛机构的工作,并开始为新的HPC和正在与欧洲气象卫星组织合作开发的欧洲天气云2购置适合机器学习项目的重要GPU硬件。由于很多机器学习工具的交互式开发都是在云端硬件上进行,可用Python、Jupyter笔记本或Julia进行交互式开发,并以可扩展的方式使用高端硬件,因此欧洲天气云将成为未来机器学习训练和应用的重要资源。首批科学家已经将其用于大型数据集的机器学习。

  在ECMWF的贡献下,第一个用于天气和气候模拟的机器学习应用的基准数据集已经发布(Weatherbench; Rasp et al.,2020)。下一步计划正在进行中,包括WMO次季节到季节(S2S)预测项目,EUMETNET协调的后处理计划,以及GEWEX框架内的陆面模式。

  除了在ECMWF使用Python的现有活动(例如通过培训和数据API)之外,还启动了一个名为CliMetLab3的项目,专门用于支持机器学习应用,以简化对气候和气象数据集的访问。CliMetLab将从ECMWF气象存档和检索系统(MARS)和哥白尼气候变化服务气候数据存储系统(CDS)的数据导入到Python环境中,使用户专注于科学而不是数据访问和数据格式等技术问题。

  为了促进气象科学家与成员国和合作国之间的合作和经验交流,ECMWF组织了两次机器学习会议:第一届哥白尼人工智能研讨会4和ECMWF-ESA机器学习用于地球系统观测和预测研讨会5。此外,2020年还举办了机器学习系列研讨会6,并对研讨会上的演讲进行了直播和录制。在2020年,为ECMWF工作人员举办了一个高级和四个入门培训课程,以在研究所内部建立机器学习的知识。

  对ECMWF数据库7中的历史信息采取开放数据政策,将为未来与外部机器学习专家的合作提供更多可能性。在AMD、Mellanox、Nvidia和DDN的支持下,ATOS和ECMWF新成立的天气和气候模拟卓越中心8还包括一个致力于机器学习发展的项目。该项目将开发定制的机器学习解决方案,用于优化IFS的垂直方向和非结构化水平网格。此外,该项目还将支持将机器学习解决方案有效地整合到ECMWF天气预报和气候服务的常规HPC工作流程中。

  ECMWF还成功支持了外部资助项目。这包括EuroHPC-JU资助、ECMWF协调的MAELSTROM项目。MAELSTROM将进行联合设计周期,开发基准数据集、基本机器学习解决方案、软件框架和硬件系统设计,这些都是为地球系统科学中机器学习应用定制的。将在MAELSTROM中开发的专门技术和基础设施将可供ECMWF调整。ECMWF还参与了H2020-ICT下资助的AI4Copernicus项目,为哥白尼数据和信息访问服务(DIAS)上的机器学习应用开发软件基础设施。此外,ECMWF是CLINTH2020-LC项目的合作伙伴,将研究如何利用机器学习来确定热带气旋形成前的三维大气结构的关键方面,如大气中的热带波和海洋热力结构。

  

如何进步——扩大视野

 

  ECMWF的目标是使ECMWF成员国和合作国以及欧洲的天气和气候模拟界在未来几年内充分利用机器学习,并展示机器学习如何融入、受益或取代现有的核心发展,以改进NWP和气候服务。为了实现这一目标,ECMWF将继续解决五个主要目标(图2)。

 

图2 ECMWF将继续解决的五个主要目标


  ECMWF还将确定先进的机器学习在地球系统模式方面的局限性,例如非线性系统的表示和黑匣子方法的物理一致性,以及机器学习方法无法超越现有解决方案的应用领域(包括图1中提到的一些应用领域)。

  对用于天气和气候模拟的复杂机器学习工具的探索仍处于早期阶段,ECMWF将促进机器学习方法在应用中的科学研究,这些应用对地球系统科学具有意义,但同时又足够小到可以对不同的机器学习解决方案进行详细的定量比较。在数据使用和机器学习工具的复杂性方面的管理问题,当探讨物理信息的机器学习和可信的人工智能,以及结合传统和机器学习工具的混合模式方法时需要考虑到快速进展。在探索不确定性量化和不确定性表示,以及为特定领域问题开发定制化机器学习解决方案时(例如使用图神经网络对球体上的非结构化模式网格进行卷积),小问题也会有帮助。

  同时,大规模机器学习解决方案正在进行测试和开发,其中包含数以百万计的可训练参数,能够将全球大气的三维状态作为输入,从数千兆的数据中进行训练,并需要使用超级计算机。这对于探索地球系统模式新工具的局限性和潜力以及为未来大规模机器学习应用做好准备是必要的,特别是机器学习对未来高性能计算基础设施的发展具有根本性影响。

  

如何进步——具体里程碑

 

 

图3 ECMWF机器学习发展时间表

 

  针对未来5年,我们为ECMWF以及成员国和合作国的机器学习活动的技术和组织支持确定了每季度(Q)或半年(H)的里程碑。我们还提出了到2031年使用机器学习的愿景。图3提供了发展的时间表。

  未来5年

  里程碑1,2021年Q1:ECMWF每年至少组织一次以机器学习为主题的会议。

  里程碑2,2021年Q2:建立成员国和合作国以及国家气象部门的机器学习专家合作网,并根据成员国和合作国的反馈,更新机器学习路线图和里程碑。

  里程碑3,2021年Q3:建立足够数量的硬件,以有效地训练和推理机器学习工具(如GPU)。探索机器学习的新硬件技术。

  里程碑4,2021年Q4:在ECMWF的关键计算硬件上可以访问JupyterHub和机器学习库。

  里程碑5,2021年Q4:成立机器学习团队,该团队分布在整个组织,涵盖机器学习价值链的关键要素。

  里程碑6,2022年Q1:为成员国和合作国用户设立机器学习培训课程。

  里程碑7,2022年Q2:发布至少四个机器学习基准数据集。

  里程碑8,2022年Q3:将机器学习工具用于质量控制,并设计物联网数据设计观测算子,以补充当前NWP和气候服务中的地球观测。

  里程碑9,2022年Q4:哥白尼计划下一阶段的ITT涉及机器学习。

  里程碑10,2023年H1:在ECMWF建立一个高效和详细记录的集中式机器学习工作流程,涵盖IFS中的数据检索、数据预处理、机器学习训练、解决方案评估

  和推断。

  里程碑11,2023年H2:至少有5个机器学习应用被纳入业务工作流程。

  里程碑12,2024年:机器学习应用被视为HPC采购的基准。

  里程碑13,2025年:在业务预测中,至少实现两个机器学习加速器的用例,以提高传统模式组件的计算效率。

  科学里程碑没有包括在上述列表中,因为机器学习解决方案将与传统工具整合在一起,并且由于ECMWF内部的应用领域众多,对单个应用的讨论将超出这个短期路线图文件的范围,因此量化突破是不可信的。附录中提供了正在进行的科研项目清单和未来步骤的概要(参见图1)。似乎在未来三年内最有希望在业务工作流程中实施的机器学习领域(见里程碑11)是:对观测结果的处理(见SMOS项目)和观测算子(目标2022),资料同化中的偏差校正(Bonavita and Laloyaux,2020,目标2022),有关重力波拖曳和辐射的物理参数化方案模拟,包括生成切线性和伴随模式代码(目标2023),集合预报后处理(Baran et al.,2020;Hewson and Pillosu,2020;Groenquist et al.,2020),或在HPC系统上调度作业或检测异常。如果结果令人信服,这些机器学习领域将进行测试,并推向实际应用。否则将考虑其他应用。

  此外,我们预计在2021年年底推出一种高效的解决方案,将IFS内的Fortran代码和机器学习库进行耦合。我们还期望到2023年,IFS垂直方向上的机器学习应用和在非结构化立方八面体简化高斯网格(如IFS中使用的)上的三维应用的通用解决方案将可用。

  

2031年的长期愿景

 

  我们预计,未来将越来越难以区分从事机器学习的科学家和气象科学家,十年后将不再可能识别最初用于机器学习应用的工具。我们的愿景是,到2031年,机器学习已经完全融入到NWP和气候服务中,并在工作流程的许多领域改进了预测及其应用。机器学习应用对数据检索的特殊要求已被充分理解,数据处理已被调整以适应这些需求,并为用户组中的所有用户提供所需的数据,只需有限的重复数据请求。定制化的机器学习解决方案已经开发出来用于天气和气候模拟的多个应用领域,为该领域新的机器学习应用的蓝本。此外,还为地球系统科学家开发了基于可信赖人工智能的诊断工具,以探索和了解复杂机器学习解决方案的功能。研究如何将物理约束(如守恒定律)纳入神经网络的设计和训练中。最终,对于相关领域的科学家来说,使用复杂的机器学习工具就像将数据重新插值到不同分辨率的网格中一样简单和正常。不仅是监督学习,无监督学习和因果发现方法也会经常使用。最后,来自终端用户的机器学习解决方案可以整合到ECMWF的NWP和气候服务工作流中,以避免繁重的数据处理,并可以交互使用。

  

结束语

 

  遵循本路线图中概述的步骤,ECMWF将能够为科学家和分析人员不断变化的需求做好准备,使之朝着更数据化的工作流程发展,并支持成员国和合作国尽快充分利用机器学习的新能力。

  路线图的范围将根据欧盟“目的地地球”(Destination Earth)倡议的未来发展进行调整,该计划将人工智能和机器学习作为开发地球系统数字孪生的主要部分之一。关于天气引发的和地球物理极端事件的数字孪生,显示出对机器学习应用的特别需求,以帮助提高模式效率(特别是通过机器学习预处理进行线性求解或用神经网络模拟模式组件),提高局地预测的质量(例如通过局地降尺度、校正偏差和量化不确定性),并将终端用户的定制交互式应用引入预测工作流程(例如通过在模拟期间自动检测特征)。对于气候变化适应的数字孪生,机器学习将能够更有效地从大型数据集中提取信息,或通过无监督学习理解因果关系和物理连接。

  ECMWF的机器学习工作也将与ESA目前的工作相一致,利用地球观测来改进全球图,这些地图可用于模式,并有可能增强ECMWF的资料同化工作。这些地图将有助于开发更好的地表参数化,并评估这些参数所需的复杂性,例如,在全球模拟中开发城市模块。