本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/jyfx/202506-1100.html
我们表示所有研究的全球天气变量在时间t上。这是一个大小NLON×NLAT×69的3D矩阵,其中NLON = 1,440和NLAT = 721分别是沿经度和纬度轴的空间分辨率 ,而69是研究变量的数量。换句话说,每个水平像素在地球表面占0.25°×0.25° 。数学问题是,给定预测时间点T0 ,假设对于所有t≤T0都可以使用,则要求该算法预测ΔT在哪里称为提前时间。由于GPU存储器的限制,在我们的工作中 ,预测算法仅用作输入并预测为输出。为此,我们训练了一个深神经网络,其中θ表示可学习的参数 。
当可用的AT的预测版本(t = t0+ΔT)时 ,我们计算了两个指标,RMSE和ACC,定义如下:
在这里 ,v是任何天气变量,是代表时间t和水平坐标值的标量(i,j)。是纬度ϕi处的重量。''表示A和气候之间的差异,即在39年内估计培训数据的天气状态的长期平均值 。RMSE和ACC值在所有时间和水平坐标中平均 ,以产生可变V和交货时间ΔT的平均数字。还可以评估RMSE和ACC指标的特定区域,例如,在北半球 ,南半球和热带地区。请参阅图2和扩展数据图 。2018年的总体和细分结果为1-3。
我们遵循最近的Work35,以计算两个集合天气预报的指标,即连续排名的概率评分(CRP)和扩散技能比率(SSR)。从数学上讲 ,CRP定义为
其中f(·)表示预测分布的累积分布函数,而(·)是指示函数,如果语句为true ,则为1,否则为0 。我们遵循原始纸张,并使用XskillScore Python软件包来计算CRP。SSR是通过将rmse划分为“传播”的 ,即
在这里,var(·)指示集合维度的方差。在所有预测上平均的扩展和RMSE值用于计算SSR。如果合奏非常可靠,则应报告1.0的SSR 。
ERE5数据集18包含过去60年的全球每小时重新分析数据。使用数值同化方法将观察数据和数值模型的预测混合到重新分析数据中,为全球天气预测提供了高质量的基准。我们使用每小时的重新分析数据 ,以便算法可以进行小时的天气预测 。我们保留了ERA5中最高的空间分辨率,地球的球体上可获得0.25°×0.25°,导致输入分辨率为1,440×721:纬度尺寸具有额外的条目 ,因为最北端和最南端的位置不重叠。
我们跟随WeatherBench13选择37个压力水平中的13个(50 HPA,100 HPA,150 HPA ,200 HPA,200 HPA,250 HPA ,300 HPA,300 HPA,400 HPA ,400 HPA,500 HPA,600 HPA,600 HPA ,700 HPA,700 HPA,850 HPA ,850 HPA,925 HPA,925 HPA和1,000 HPA和1,000 HPA和表面级别。To fairly compare with the online version of the ECMWF control forecast, we chose to forecast the factors published in the TIGGE dataset3, namely, five upper-air variables (geopotential, specific humidity, temperature, and the u-component and v-component of wind speed) and four surface variables (2-m temperature, the u-component and v-component of 10-m wind speed, and MSLP).有关研究变量的完整列表和相应的缩写 ,请参阅扩展数据表1 。此外,将三个恒定掩模(地形掩码,陆地掩码和土壤型面膜)添加到表面变量的输入中。
当我们在2018年准备测试数据时 ,由于与培训数据的重叠,我们在2018年1月1日排除了测试点。此外,由于ECMWF的服务器错误 ,2018年12月的所有测试点都无法使用 。Fourcastnet还将这些数据排除在测试阶段。
输入和输出数据有两个来源,即高空变量和表面变量。前者涉及13个压力水平,每个压力水平有5个变量,它们共同形成13×1,440×721×5的体积 。后者包含1,440×721×4的体积。这些参数首先从原始空间嵌入到C维潜在空间中。我们使用了一种名为“斑块嵌入 ”的通用技术来降低维度。对于上方的部分 ,贴片大小为2×4×4,因此嵌入式数据的形状为7×360×181×C 。对于表面变量,贴片大小为4×4 ,因此嵌入式数据的形状为360×181×C,其中C是基本通道宽度,并且在我们的工作中设置为192。然后将这两个数据量沿着第一个维度连接 ,以产生8×360×181×C的体积。然后,通过标准编码器 - 二次体系结构传播卷,该体系结构具有8个编码器层和8个解码器层 。解码器的输出仍然是8×360×181×c的体积 ,它通过贴片恢复投影回原始空间,产生所需的输出。下面,我们描述每个组件的技术细节。
我们遵循标准视觉变压器 ,将线性层与GELU(高斯误差线性单元)激活进行贴片嵌入 。在我们的实现中,一个贴片具有2×4×4像素的高级像素,用于表面变量的贴片具有4×4。滑动窗口的步幅与补丁大小相同,当数据大小不可分割时 ,添加了必要的零值填充。贴片嵌入的参数数为(对于高空变量为4×4×2×5)×C,(4×4×4)×C的表面变量 。补丁恢复执行相反的操作,具有相同数量的参数 ,但这些参数未与补丁嵌入共享。
对于前2个编码层,数据大小保持不变为8×360×181×C,而在接下来的6层中 ,水平尺寸降低了2倍,通道数量增加了一倍,导致数据尺寸为8×180×91×2c。解码器部分与编码器部分对称 ,前6个解码器层的大小为8×180×91×2c,其下一个2层的大小为8×360×181×C 。第二个编码器层的输出和第七个解码器沿信道沿通道减小。我们遵循SWIN Transformers19的实现,以将不同分辨率的相邻层与下采样和上采样操作联系起来。对于向下采样 ,我们将四个令牌合并为一个(特征维度从C到4C增加),并执行了线性层以将维度降低到2C。为了进行上采样,执行了反向操作 。
每个编码器和解码器层都是最3D的块。它类似于标准视觉变压器块20,但专门设计用于与地球的几何形状保持一致。我们使用了视觉变压器的标准自我注意机制 。为了进一步降低计算成本 ,我们继承了窗口注意机制19将特征图划分为窗口,每个特征图最多包含2×12×6令牌。应用了移位的窗口机制19,以便在每一层中 ,网格分区都不同于前一个窗口大小。由于沿经度方向的坐标是周期性的,左侧和右边缘的一半窗口被合并为一个完整的窗口 。合并操作不是沿纬度方向进行的,因为它不是周期性的。我们将读者推荐给原始论文19,20 ,以获取有关视觉变形金刚的更多详细信息。
Swin Transformer19使用相对位置偏置来表示专注的翻译不变成分,在该分量上,在每个窗口的相对坐标上计算偏置 。但是 ,对于全球天气预报,情况有些不同:每个令牌都对应于地球坐标系统上的绝对位置;由于地图是地球球体的投影,因此相邻令牌之间的间距可能不同。更重要的是 ,一些天气状态与绝对位置密切相关。在扩展数据中显示了地球电势,风速和温度的示例 。为了捕获这些特性,我们引入了一个特定于地球的位置偏置,该偏置通过基于其绝对(而不是相对)坐标的每个令牌添加一个位置偏置来起作用。
从数学上讲 ,让整个特征映射为具有NPL×NLON×NLAT空间分辨率的音量,其中NPL,NLON和NLAT分别指示沿压力水平 ,经度和纬度的轴的大小。将数据量分配到MPL×MLON×MLAT窗口中,每个窗口的大小为WPL×WLON×WLAT。地球特异性的位置偏置矩阵包含MPL×MLAT子膜片(MLON在这里不出现,因为不同的纵向共享相同的偏差:经度指数是循环的 ,沿着该轴沿该轴均匀分布),每个轴都沿该轴均匀分布),每个纵横内都具有可学习的参数 。当在同一窗口内的两个单元之间计算注意力时 ,我们使用压力水平和纬度(MPL,MLAT)的索引来定位相应的偏置子矩阵。然后,我们使用了窗内坐标 ,并在(MPL,MLAT)th th subpatrix的偏置值中查找偏置值。
我们简要讨论其他设计选择 。由于大型训练开销,我们没有对超参数进行详尽的研究,我们认为存在会导致更高准确性的配置或超参数。首先 ,我们使用了8(2+6)编码器和解码器层,其明显少于标准的Swin Transformer19。这是为了降低时间和内存的复杂性 。如果一个人具有更强大的群集具有更大的GPU内存,则增加网络深度可以带来更高的准确性。其次 ,可以通过参数共享或其他技术来减少地球特异性位置偏差中使用的参数数量。但是,我们并不认为这是一个关键问题,因为它不太可能将天气预报模型部署到有限存储的边缘设备上 。第三 ,有可能将更多时间指标的天气状态喂入模型,这是可能的,这将所有张量从三个维度更改为四个维度。尽管AI社区显示了四维深网33,34的有效性 ,但有限的可用计算预算阻止了我们探索这种方法。
使用ADAM Optimizer对四个单独的模型进行了100个时期的培训 。我们使用了平均渗透损失。分别在每个二维输入场(例如Z500)上进行归一化。它通过从二维场中减去平均值,然后将其除以标准偏差。每个变量的平均值和标准偏差是根据1979年至2017年的天气数据计算的 。每个变量的重量与早期运行中计算的平均损失价值成反比,旨在促进这些变量的贡献等效性。具体而言 ,对于Z,Q,Q,T ,U和V的高空变量的重量分别为3.00、0.60、1.50 、0.77和0.54,而表面变量的权重分别为1.50、0.77、0.66和3.00,分别为MSLP ,U10,V10和T2M。我们将高空变量的平均值误差损失和0.25的平均值损失添加到表面变量的重量,并总结了两个损失 。我们使用的批量大小为192(即每GPU 1个训练样本)。学习率始于0.0005 ,并在余弦时间表之后逐渐退火至0。在每个时期内随机排列训练子集(1979- 2017年)中的所有起点时间点,以减轻过度拟合 。采用了0.2的下降比为0.2的3×10-6和计划的重量衰减以减轻过度拟合。我们发现,在100个时代结束时 ,所有模型尚未达到完整的收敛,因此我们希望扩展训练程序可以提高预测准确性。我们在扩展数据中绘制了一些测试变量相对于不同的交货时间(1 h,3 h ,6 h和24 h)的精度 。
pangu-天气的推理速度与四castnet2相当。在系统级比较中,四castnet需要在Tesla-A100 GPU(312 teraflops)上推断24小时的预测为0.28 s,而在Tesla-V100 GPU(120 teraflops)上,Pangu-weather需要1.4 s。考虑到GPU的性能 ,Pangu-Weather比Fourcastnet慢50% 。Pangu-Weather比操作IFS快10,000次,这需要数百个节点的超级计算机中的数小时。
我们遵循了以前的工作37,以比较根据预测结果和地面真相计算的顶级分位数的值。从数学上讲 ,我们将D = 50个百分点设置为Q1,Q2,... ,QD。我们关注了FourcastNet2以将Q1 = 90%和QD = 99.99%设置,并且中级百分位数在对数刻度中在Q1和QD之间线性分布 。然后,针对每对天气变量和交货时间单独计算相应的分位数 ,称为Q1,Q2,... ,QD。例如,对于U10变量的所有为期三天的预测,从所有框架中收集了统计范围的像素值。我们关注了FourcastNet2,以相对于扩展数据中的交货时间绘制极端百分位数图7 。
最后 ,计算了相对分位数误差(RQE),以测量地面真相与任何天气预测算法之间的总体差异:
其中QD和是根据ERA5地面真相和预测算法计算的DTH分位数。RQE可以测量RQE的整体趋势< 0 and RQE >0暗示预测算法分别低估并高估了极端的强度。我们发现,pangu-天气和运营的IF都倾向于低估极端 。随着交货时间的增加 ,Pangu-Weather遭受了更大的低估。注意到,RQE和单个分位数具有局限性:他们没有评估极端值是否在正确的位置和时间出现,而仅查看值分布。通过跟踪热带气旋的实验 ,进一步验证了pangu天气捕获单个极端事件的能力 。
我们遵循了一种经典的算法38,该算法位于MSLP的局部最小值,以跟踪热带气旋的眼睛。鉴于旋风眼的起始时间点和相应的初始位置 ,我们迭代地要求使用6小时的预测算法,并寻找满足以下条件的局部最小值MSLP:
一旦旋风的眼睛所在,跟踪算法继续在445公里附近找到下一个位置。当未发现局部最低MSLP的局部最小值以满足上述条件时 ,跟踪算法终止 。有关两个跟踪示例,请参见图8的扩展数据。
我们通过绘制相对于不同盆地或扩展数据中不同强度的平均直接位置误差来扩展图4C。在每个子集中,Pangu-Weather报告较低的误差,并且随着交货时间的较大的结论 ,优势变得更加显着,与我们从整个数据集中得出的结论保持一致。同样,我们强调 ,与ECMWF-HRES的比较有些不公平,因为ECMWF-HRES使用了初始条件数据,而Pangu-Weather使用了重新分析数据 。
以下是对四个热带气旋的更详细的分析。Pangu-Weather的优势主要在于在早期阶段跟踪旋风路径。
pangu-天气的更好跟踪结果主要是从重新分析数据的准确确定性预测准确性继承 。在图8的扩展数据中 ,我们展示了Pangu-Weather如何在指定的跟踪算法之后跟踪Michael和Typhoon Ma-on飓风。在这四个变量中,MSLP和10米风速是通过确定性预测直接产生的,厚度和涡度来自地球电位和风速。这表明pangu-天气可以产生支持旋风跟踪的中间结果 ,这进一步协助气象学家理解和利用跟踪结果 。
对于集合天气预测而产生的每种扰动都包含3个八八度Perlin噪声,尺度为0.2 、0.1和0.05,沿每个轴(经度或纬度)生成的周期数分别为12、24和48。我们使用了GitHub存储库中提供的代码(https://github.com/pvigier/perlin-numpy) ,并修改了加速代码。我们在伪代码中添加了一个部分 。
天气预报主要有两条研究线。在整个本文中,我们一直使用“常规NWP”或简单的“ NWP”方法来参考数值仿真方法,并使用“基于AI的 ”方法来指定数据驱动的预测系统。我们了解到,口头上 ,基于AI的方法也属于NWP,但我们遵循了《公约》 17来使用这些术语 。
NWP方法通常将大气状态分配为离散的网格,使用PDE来描述它们1,39,40之间的过渡 ,并使用数值模拟求解PDE。网格的间距是预测准确性的关键,但是它受到计算预算的限制,因此天气预报的空间分辨率通常受到限制。参数化41是捕获未解决过程的有效方法。NWP方法已被广泛应用 ,但是超线性增长的计算间接空间1,42使它们困扰,并且通常很难对它们进行有效的并行化43 。NWP的大量计算开销还限制了集合成员的数量,因此削弱了概率天气预测的多样性和准确性。
基于AI的方法为天气预报提供了互补的途径。AI的尖端技术在于深度学习10 ,它假设可以从丰富的训练数据中学习输入和输出数据之间的复杂关系,而无需知道实际的物理程序和/或公式 。在天气预报的范围内,首先将基于AI的方法应用于基于雷达数据的降水预测问题44,45,46,47或卫星数据48,49 ,其中最初条件影响的传统方法由基于深度学习的方法代替。深层神经网络的强大表达能力导致了这些问题的成功,这进一步鼓励研究人员深入研究中等范围的天气预报2,11,12,13,14,15,16,作为NWP方法的更快补充或替代方法。最先进的深度学习方法主要依赖于大型模型(即具有大量可学习参数)来从培训数据中学习复杂的模式 。
Pangu是中国神话中的原始存在和创造人物,他将天地分开 ,并成为山脉和河流等地理特征(请参阅https://en.wikipedia.org/wiki/pangu)。Pangu还是由华为云开发的一系列预训练的AI模型,涵盖了计算机视觉,自然语言处理 ,多模式理解,科学计算(包括天气预报)等。
赞 (13)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 我们表示所有研究的全球天气变量在时间t上。这是一个大小NLON×NLAT×69的3D矩阵,其中NLON = 1,440和NLAT = 721分别是沿经度和纬度轴的空间分辨率...
文章不错《通过3D神经网络进行准确的中等范围全球天气预测》内容很有帮助