使用Cloud Storage在Cloud TPU Pod上训练pytorch模型 免责声明:仅出于示例目的提供此代码。 此存储库包含支持文件,用于使用以下配置进行培训: 云TPU Pod TPU豆荚分为几片。 每个片都需要与VM Worker配对(异步训练)。 v2-32 TPU Pod具有4个切片(32/8 = 4)。 进行训练时,每个虚拟机将获得一个专用的pod切片。 XLA编译器执行代码转换,包括将矩阵平铺为较小的块,以有效地对矩阵单元(MXU)执行计算。 XLA编译器使用MXU硬件的结构,128x128脉动阵列以及TPU内存子系统的设计(首选尺寸是8的倍数)来提高切片效率。 托管实例组 每个TPU将从实例组中获取一个节点,因此该实例组将具有4个节点。 该图像是深度学习pytorch 1.7图像。 数据集 以ImageFolder兼容的布局在云存储中存储了约135GB的201