论文研究 中国气象领域高性能计算故障的研究与分析
中国气象局(CMA)使用高性能计算系统(HPCS)已有三十多年的历史。 CMA HPCS投资提供了可靠的HPC功能,这些功能对于运行数值天气预报(NWP)模型和气候模型至关重要,每天生成数百万种天气指导产品,并为耦合模型比较项目第五阶段(CMIP5)提供支持。 监视HPCS并分析资源使用情况可以提高我们用户的性能和可靠性,这需要对故障特征有很好的了解。 缺乏对实际生产系统中的故障的大规模研究。 本文收集,分析和研究HPC运行期间发生的所有故障,尤其着重研究HPCS与NWP应用之间的关系。 此外,我们提出了更有效的监控系统开发所面临的挑战,并总结了有用的维护策略。 此步骤可能会对HPC在线故障预
暂无评论