HyperAI超神经

海洋预报系统在航运安全、水产养殖管理、海岸带风险防控及海洋生态监测等领域发挥着不可或缺的支撑作用。过去，这类系统主要依靠基于物理方程的数值模型来运行，以哥白尼海洋环境监测服务（CMEMS）中的地中海预报系统（MedFS）为例，该系统采用双向耦合的浪-流数值模式，以约 4 公里（1/24°）的水平分辨率提供长达 10 天的业务化海洋预报，已成为地中海区域公认的预报参考标准。

然而，高精度往往伴随着巨大的计算成本。 MedFS 完成一次 10 天预报需动用 89 个 CPU 核心，耗时约 70 分钟，输出涵盖 141 个深度层的完整海况场。如此高的计算负荷，使其在快速情景模拟或集合预报等对时效性要求较高的应用中受限，难以充分响应实际业务中的应急需求。

近年来，基于机器学习的天气预报领域取得显著进展。借助 Transformer 、神经算子、图神经网络等先进架构，机器学习方法已能在全球尺度上实现与传统数值预报相当甚至更优的表现。然而，这些成功经验向高分辨率区域海洋预报场景迁移时面临诸多挑战：不规则的海陆分布、复杂的侧边界条件，以及对垂直分层变量精细刻画的需求，使得现有全球尺度海洋 AI 模型难以直接适配区域任务。

针对这一技术空白，芬兰赫尔辛基大学、地中海气候变化研究中心与意大利萨伦托大学组成的联合研究团队，研发了专为区域海洋预报设计的图神经网络模型 SeaCast 。该模型在技术架构上实现了多项关键突破：通过优化图的构建、训练与评估流程，精准适配海洋网格的不规则几何结构；引入海表附近的关键大气强迫场数据，增强预报的物理关联性；耦合侧向边界强迫，准确刻画海水流入流出过程，确保与全球海洋环流系统的一致性，从而实现对海洋状态的高精度预测。

研究亮点：

* 该研究提出了 SeaCast，一款基于图神经网络的高分辨率区域海洋预报机器学习模型

* 该模型直接从历史再分析数据和分析数据中学习，实现对地中海海洋关键要素的预报。在所有垂向层次和所有模拟要素上均优于业务化 MedFS 模型

* 模型训练完成后，在单块 GPU 上仅需 20 秒，即可完成 1/24° 网格下 18 个垂向层次的 15 天预报，远快于在 CPU 集群上运行的物理基模型

论文地址：

https://www.nature.com/articles/s41598-025-31177-w

查看更多论文：https://hyper.ai/papers

数据集：海洋状态、大气强迫、侧向边界及卫星验证数据

该研究构建的数据集涵盖海洋状态、大气强迫、侧向边界强迫及卫星观测四大类别，为 SeaCast 模型的训练、验证与测试提供系统支撑。

海洋状态数据主要来源于地中海海洋物理分析与预报系统，该系统建立在 NEMO v4.2 海洋模式与 WAVEWATCH III v6.07 波浪模式的双向耦合基础之上。为了提升模拟的准确度，系统采用了三维变分同化方案 OceanVar，有效融合了现场观测和卫星遥感观测数据。研究团队选取了 200 米以浅、每隔一层的 18 个深度用于建模工作，地形数据基于 GEBCO 全球地形数据库通过双线性插值获得。

模型的初始训练采用 1987-2021 年共 35 年的地中海再分析日平均数据，并利用 2022-2023 年共 2 年的业务化分析数据进行微调。微调旨在使模型学习近期海洋状态、适配业务化场景中以分析场为初始条件的要求，同时适应 MedFS 业务化系统的更新内容。模型验证采用 2024 年 1-6 月的分析数据（177 个样本），测试数据则为 2024 年 7 月初至 12 月末的日初始化预报数据，每次初始化均生成 15 天预报，预报技巧评估延续至 2025 年 1 月 14 日，以完整覆盖 SeaCast 的预报时效。

研究团队在大气强迫方面纳入了 2 米气温、海平面气压，以及由风分量计算得到的 10 米风应力分量。训练阶段的大气数据源自 ERA5 再分析 6 小时数据，聚合为日平均值；测试阶段则采用 ECMWF 集合控制预报（ENS）与人工智能预报系统（AIFS）的 6 小时聚合日预报结果，以对比不同大气强迫的影响。模型采用连续 3 个时间步的滑动窗口作为大气强迫输入，以捕捉短期变化趋势。

此外，研究团队将直布罗陀海峡区域（西经 5.2° 以西）和达达尼尔海峡区域（北纬 39.9° 至 40.4°、东经 25.9° 至 26.4°）定义为模型的开放侧向边界，利用 MedFS 或全球海洋预报数据提供动态的边界强迫。考虑到哥白尼海洋预报产品通常为 10 天时效，而研究采用 15 天预报标准，研究团队通过一种创新的外推方法，将边界区域最后一个预报状态连续向后外推 5 次，巧妙地实现了侧向边界强迫场的时效延长，保证了全时效的边界一致性。

卫星数据主要用于模型预报的验证与误差评估，涵盖海表温度和海平面异常两类数据。海表温度采用哥白尼 L3S 多传感器融合产品（日尺度，1/16° 分辨率），仅纳入夜间观测以消除日加热影响。验证时将模型预报重采样至 L3S 网格进行比对。海平面异常采用哥白尼沿轨 3 级近实时产品，综合多颗高度计卫星的 5 赫兹观测值，并经滤波处理以降低噪声。模型输出的海平面高度转换为异常后，通过双线性插值映射至卫星沿轨坐标开展验证。

SeaCast：基于图神经网络的高分辨率区域海洋预报模型

SeaCast 是一款专为地中海区域设计的数据驱动型海洋预报模型，能够在 1/24°（约 4 公里）水平网格上，对 18 个垂向层次开展最长 15 天的海洋预报。其空间分辨率与业务化运行的 MedFS 系统保持一致，可预测变量涵盖垂向分层的纬向流、经向流、盐度、温度及海平面高度，共计 73 个预报场。

该模型最突出的优势在于计算效率。在单块 GPU 上，SeaCast 完成一次完整的 15 天预报仅需 20 秒；相比之下，MedFS 需在 89 个 CPU 核心上，以 120 秒时间步长输出 141 个垂向层次的结果，生成一次 10 天预报约需 70 分钟。尽管二者运行机制存在本质差异，但数据驱动方法在高分辨率上层海洋预报上的效率优势显而易见。

SeaCast 采用编码-处理-解码的架构，基于适配地中海特征的分层图网格运行。如下图所示，输入的海洋状态和大气强迫场首先被编码为粗分辨率的多尺度网格表征，随后图神经网络层以分层方式处理这些隐特征，使模型能够有效捕捉海洋的短距离与长距离相互作用，处理后的输出再被解码回原始高分辨率网格。

与直接预测下一时刻状态不同，模型聚焦于学习海洋状态在日尺度上的变化趋势，将预测的变化量与当前状态叠加后，再融入动态边界条件，生成完整的下一时刻预报。这一状态将作为新的输入进入模型，通过自回归循环实现不同时效的预报。相较于 GraphCast 等仅在单一网格层连接节点的多尺度模型，该研究采用的分层方法将预报区域划分为多个独立网格层，使得网格到图的连接性更为均匀，有效减少了因节点邻域规模差异带来的模拟偏差。

大气强迫场充分考虑了海洋对大气条件的响应，包含 10 米风应力分量、 2 米气温、平均海平面气压，以及年积日的正弦与余弦值作为季节指示因子。训练阶段，直布罗陀和达达尼尔海峡边界区域的预测状态用真实值覆盖，评估阶段则替换为 MedFS 预报数据，以此处理开边界条件，确保海水流入流出的动力过程更真实。

SeaCast 模型先利用 35 年日再分析数据进行 200 轮预训练，再利用 2 年分析数据进行 30 轮微调。其中，预训练在 64 块 AMD MI250x GPU 上以数据并行运行 20.5 小时（1312 GPU hours），微调在 8 块 GPU 上运行 3.5 小时（28 GPU hours）。

SeaCast 的预报技巧优于 MedFS 模型

围绕 SeaCast 模型的预报性能，研究开展多维度实验，以 MedFS 为基准，并针对高温极端事件识别、大气强迫的影响、训练时长等关键方向设计受控实验，系统评估其预报能力。

在 SeaCast 与 MedFS 的对比实验中，MedFS 预报时效为 10 天，而 SeaCast 通过融合 ECMWF 延长至 15 天的大气产品并外推侧向边界，实现了 15 天海洋预报。实验选取纬向流、经向流、盐度、温度、海表温度和海平面异常六个要素，采用分层验证，以持续性基准为下限。结果如下图所示，SeaCast 整体优于 MedFS，且随预报时效延长差距扩大。垂向分层显示，温度和海流优势在海表附近最明显，盐度最优效果在更深水层；仅 192 米深处 SeaCast 未显著优于 MedFS，可能与未考虑更深层过程有关。

针对极端事件识别，研究人员借鉴海洋热浪定义，基于卫星数据计算海表温度第 90 百分位数以定义极端温度事件的阈值。结果如下图所示，SeaCast 和 MedFS 识别能力均显著优于持续性基准，SeaCast 略优；其 15 天预报时效为早期预警争取了更充足时间。

研究人员针对训练时长（training period）与微调影响实验设计了多种变体。结果如下图所示，对于纬向流、经向流、温度和海表温度，仅用 10 年再分析数据训练的模型性能即可与 MedFS 相当；而盐度和海平面异常需 35 年数据加微调方能优于 MedFS 。微调对海平面异常提升有限，可能与验证数据稀疏性有关，但其他要素微调后均优于未微调版本。这一发现对历史数据有限的区域具有指导意义：仅需 10 年再分析和较低成本，即可训练出性能与数值模型相当的机器学习预报模型。

*不同预报时效下 SeaCast 变体与 MedFS 的归一化 RMSE 相对于基准模型的差异*

AI 驱动海洋预报：全球学术界与企业界的探索与实践

在全球范围内，学术界与企业界正以前所未有的深度与广度，共同推动着人工智能与海洋预报技术的融合创新，一批具有代表性的研究成果与业务化系统正在重塑这一领域的技术版图。

其中，作为全球中期天气预报的权威机构，欧洲中期天气预报中心（ECMWF）在持续优化其传统数值预报系统 IFS 的同时，于近年推出了人工智能预报系统 AIFS，并已进入业务化运行阶段。值得关注的是，ECMWF 正将这一数据驱动框架向地球系统模式延伸，重点攻关海洋、海冰、海浪等分量的机器学习建模。

与此同时，NVIDIA 发起的 Earth-2 计划展示了科技巨头在气候与海洋模拟领域的战略布局。 Earth-2 并非单一模型，而是一个涵盖全球天气预报、气候模拟、生成式 AI 降尺度与资料同化的全栈技术平台。其核心组件之一 FourCastNet 作为早期基于 Transformer 的全球预报模型，已实现与传统数值模式相当的预报技巧。

此外，Google Research 推出的 NeuralGCM 代表了混合建模路径的积极探索。这一模型将可微分的大气动力核心与机器学习替代的次网格物理参数化方案相结合，实现了数十年的稳定气候模拟。

由此可见，人工智能正在从辅助工具逐步嵌入海洋预报的核心环节。无论是作为物理模式的补充、端到端的替代方案，还是以混合形式融合其中，数据驱动方法的价值已不再停留于理论验证，而是进入业务化探索和行业应用的前夜。未来，随着多模态观测数据的持续积累、生成式 AI 与物理机理的进一步融合，海洋预报技术有望在精度、时效与可解释性之间达成新的平衡，为科学研究与产业应用提供更坚实的技术底座。

参考链接：
1.https://mp.weixin.qq.com/s/dlEDxumoeTCkfkgY2s7V2g
2.https://mp.weixin.qq.com/s/dqhe6tWYrYvh06HTepsFpw