谷歌在2022年提出的PaLM模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E的字面理解是以PaLM作为预训练的语言模型,并使其具身化(Embodied)。其中,机器学习中的具身化是指一种涉及到物理实体(如机器人)的机器学习方法,它可以处理多模态的数据,如语言、视觉和触觉,并且可以适应不同的环境和任务。PaLM-E主要架构思想是,将连续的、具体的多模态观察转化为和语言token嵌入空间维数相同的向量序列,用和语言token同样的方式注入预训练语言模型的语言嵌入空间,从而建立文字和感知之间的联系,解决机器人相关的具身问题。