Ta上传的资源 (0)

语言在塑造人类思维中扮演关键角色,赋予了我们总结、探索、规划、重新规划和适应新情况的非凡能力。然而,强化学习(RL)代理在这些方面远远落后于人类。我们假设这种认知差距的一个原因是缺乏语言思维的利益。为了提升人工智能代理的性能,我们试图训练它们模仿人类的思考方式。我们引入了一种新颖的模仿学习框架,名为

微调语言模型(LM)已经在多个下游任务中展现出了卓越的性能,然而,随着LM规模的增大,反向传播所需的内存也呈现出不可忽视的增长。为了解决这一问题,我们在本研究中提出了一种内存高效的零阶优化器,命名为MeZO。MeZO采用经典的ZO-SGD方法进行就地操作,使得在微调LM时只需占用与推理相同的内存。我