微软发布了一款名为DeepSpeed Chat的开源系统框架,能够支持RLHF流程,使得各种规模的高质量类ChatGPT模型的训练更加简便。DeepSpeed Chat的出现填补了整个端到端RLHF规模化系统的空白,同时将成本大大降低。使用混合引擎DeepSpeed-HE只需要花费1620美元,即可在2.1天内训练一个OPT-66B模型。使用多节点和多GPU系统,DeepSpeed-HE可以花费320美元,在1.25小时内训练一个OPT-13B模型。