slurm调度设计文档 一篇文档让你精通Slurm调度!Slurm调度的考虑点、调度模型、涉及的插件和参数、调度主要流程和关键代码。涉及主调度器/回填调度/网络拓扑/gpu调度/抢占/gang/资源预约/checkpoint等插件细节。
slurm_design SLURM是一种开源的、容错的、高度可伸缩的集群管理和作业调度系统,适用于数千个节点的Linux集群。组件包括机器状态、分区管理、作业管理、调度和流复制模块。本文概述了SLURM的体系结构和功能。
MPI并行编程入门培训.pdf 该资料较详细的描述了MPI入门所需要的一些知识,包括并行计算基础知识,MPI概述,点到点通信/组通信,阻塞通信/非阻塞通信,MPI_Sendrecv和虚进程,自定义数据类型和虚拟进程拓扑。相信一定能够帮到您!
PMIx Process management for exascale environments.pdf 这篇论文是美国E级机研究计划的部分成果,已经在世界排名前两名的超算美国Summit和Sierra上实施。 非专业人士请勿下载,专业人士请移步论文下载网站下载。
How Mellanox BlueField SmartNIC Transforms BareMetal Cloud.pdf 本文档主要介绍Nvidia的BlueField的SmartNIC,一个新名词叫DPU。DPU是一种新型可编程处理器,集三个关键要素于一身。DPU是一种SOC(SystemOnChip),它结合了: 行业标准的、高性能及软件可编程的多核CPU,通常基于已应用广泛的Arm架构,与其的SOC组件密切配合。