cabin1234的所有下载-用户-卡了网

Ta上传的资源 (0)

边行动边思考：探索模仿人类思维的AI代理

语言在塑造人类思维中扮演关键角色，赋予了我们总结、探索、规划、重新规划和适应新情况的非凡能力。然而，强化学习(RL)代理在这些方面远远落后于人类。我们假设这种认知差距的一个原因是缺乏语言思维的利益。为了提升人工智能代理的性能，我们试图训练它们模仿人类的思考方式。我们引入了一种新颖的模仿学习框架，名为

内存高效的MeZO优化器在大型语言模型微调中的广泛适用性

微调语言模型（LM）已经在多个下游任务中展现出了卓越的性能，然而，随着LM规模的增大，反向传播所需的内存也呈现出不可忽视的增长。为了解决这一问题，我们在本研究中提出了一种内存高效的零阶优化器，命名为MeZO。MeZO采用经典的ZO-SGD方法进行就地操作，使得在微调LM时只需占用与推理相同的内存。我