边行动边思考:探索模仿人类思维的AI代理 语言在塑造人类思维中扮演关键角色,赋予了我们总结、探索、规划、重新规划和适应新情况的非凡能力。然而,强化学习(RL)代理在这些方面远远落后于人类。我们假设这种认知差距的一个原因是缺乏语言思维的利益。为了提升人工智能代理的性能,我们试图训练它们模仿人类的思考方式。我们引入了一种新颖的模仿学习框架,名为
内存高效的MeZO优化器在大型语言模型微调中的广泛适用性 微调语言模型(LM)已经在多个下游任务中展现出了卓越的性能,然而,随着LM规模的增大,反向传播所需的内存也呈现出不可忽视的增长。为了解决这一问题,我们在本研究中提出了一种内存高效的零阶优化器,命名为MeZO。MeZO采用经典的ZO-SGD方法进行就地操作,使得在微调LM时只需占用与推理相同的内存。我