8.5.迈向多模态 AGI,离智能未来更近一步 8.5.1.多模态具身语言模型 PaLM-E 2023 年 3 月谷歌发布多模态具身语言模型 PaLM-E,能够理解图像、生成语言、并且结合两者生成复杂的机器人指令、还拥有强大的正迁移能力。PaLM-E 由谷歌和柏林工业大学的团队共同打造,PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型,训练数据集包含视觉、连续状态估计和文本输入编码的多模式语句,参数量为 5620 亿。PaLM-E 仅有解码器,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本。经过图像提示训练,PaLM-E 可以生成图像描述文本,还能指导机器人完成复杂的长跨度任务。