Ta上传的资源 (0)

美国E级机计划输出的文档,截止2020年部署和调试OpenMPI的最佳实践。涉及编译、调优调试、PMIx、GPU、容器等主题,带有Summit上的一些实践。

一篇文档让你精通Slurm调度!Slurm调度的考虑点、调度模型、涉及的插件和参数、调度主要流程和关键代码。涉及主调度器/回填调度/网络拓扑/gpu调度/抢占/gang/资源预约/checkpoint等插件细节。

SLURM是一种开源的、容错的、高度可伸缩的集群管理和作业调度系统,适用于数千个节点的Linux集群。组件包括机器状态、分区管理、作业管理、调度和流复制模块。本文概述了SLURM的体系结构和功能。

该资料较详细的描述了MPI入门所需要的一些知识,包括并行计算基础知识,MPI概述,点到点通信/组通信,阻塞通信/非阻塞通信,MPI_Sendrecv和虚进程,自定义数据类型和虚拟进程拓扑。相信一定能够帮到您!

本文档主要介绍Nvidia的BlueField的SmartNIC,一个新名词叫DPU。DPU是一种新型可编程处理器,集三个关键要素于一身。DPU是一种SOC(SystemOnChip),它结合了: 行业标准的、高性能及软件可编程的多核CPU,通常基于已应用广泛的Arm架构,与其的SOC组件密切配合。