CALVIN:一种微分规划器,能够学习可解释的世界模型用于长期规划。CALVIN成功地在部分可观测的三维环境中(如迷宫和室内房间)导航,通过从专家示范中学习奖励(目标和障碍)以及状态转换(机器人动力学)。 SOAP:一种强化学习算法,用于无监督地发现长远任务的宏动作(选项)。选项将任务划分为子任务,并实现子任务的稳定执行。SOAP在基于历史条件的走廊任务以及经典基准(如Atari游戏)中表现出稳健的性能。 LangProp:一个使用大型语言模型(LLM)进行代码优化的框架,通过将代码视为可学习的策略,解决具身智能体问题。该框架在CARLA自动驾驶基准中成功生成了具有可解释性的代码,其性能与人类专家编写的代码相当甚至更优。 Voggite:一种具有视觉到动作的Transformer后台的具身智能体,它解决了Minecraft中的复杂任务。在MineRL BASALT竞赛中,Voggite通过识别动作触发点,将任务分割成多个阶段,获得了第三名。
开发了一个名为CALVIN的可微分规划器(Collision Avoidance Long-term Value Iteration Network),通过执行可微分的值迭代来学习在未知的3D环境中导航。状态转换和奖励模型是从专家演示中学习的,类似于值迭代网络(VIN)。然而,VIN难以惩罚导致与障碍物和墙体碰撞的无效动作,导致值估计不准确。CALVIN通过学习动作承受度来约束智能体的转换和奖励,从而解决了这个问题。CALVIN能够在新颖的2D和3D环境中导航,并显著优于其他基于VIN的可学习规划器。该工作已在2022年IEEE/CVF计算机视觉与模式识别会议(CVPR)上发表[97]。详细内容见第3章。 基于对选项框架和前向-后向算法[14]的分析,开发了算法来学习时间一致的选项及其相关的子策略,以解决需要长期记忆的POMDP任务。提出并研究了两种无监督选项发现的学习目标:通过期望最大化的近端策略优化(PPOEM)和顺序选项优势传播(SOAP)。PPOEM应用前向-后向算法[14]优化选项增强策略的期望回报。然而,研究表明,在没有未来轨迹知识的情况下,这种学习方法在学习因果策略时是不稳定的,因为选项分配是针对整个回合进行优化的。作为一种替代方法,SOAP评估了最优选项分配的策略梯度。它扩展了广义优势估计(GAE)的概念,通过时间传播选项的优势,相当于对选项策略梯度执行时间反向传播。使用这种方法,选项策略仅依赖于智能体的历史记录。与竞争基准相比,SOAP表现出最强的鲁棒性,正确发现了POMDP走廊环境中的选项,以及标准基准中的Atari[16]和MuJoCo[222]。该论文已在arXiv上发表[98]。详情见第4章。 提出了LangProp框架,用于迭代优化由LLMs生成的代码。LangProp自动评估代码在输入-输出数据集上的表现,捕获任何异常,并将结果反馈给LLM训练循环,使LLM能够迭代改进其生成的代码。LangProp训练模块可以在监督学习和强化学习设置中使用。LangProp成功解决了Sudoku和CartPole问题,并生成了驾驶代码,其性能与CARLA驾驶基准[48]中的人类实现的专家系统相当或更优。LangProp能够生成可解释且透明的策略,可以通过度量和数据驱动的方式进行验证和改进。该工作已在2024年国际学习表征会议(ICLR)LLM智能体研讨会上接受[100]。该工作是在Wayve Technologies实习期间进行的。详情见第5章。 开发了Voggite,一个在Minecraft开放式虚拟世界中执行任务的具身智能体。Voggite以OpenAI的视频预训练(VPT)[12]为主干,一个基于Transformer的智能体,经过在线视频的监督逆动力学模型(IDM)标注进行预训练。VPT策略接受128帧的过去观测结果,相当于6.4秒的历史。虽然VPT智能体在许多反应性任务中表现有效,但在任务执行的不同阶段上难以区分。Voggite通过将任务分为不同阶段解决了这一问题。Voggite在2022年NeurIPS MineRL BASALT竞赛中的63支队伍中获得了第三名。竞赛要求智能体在Minecraft中寻找洞穴并建造瀑布、农场和建筑物。合作撰写的比赛回顾文章已在arXiv上发布[136]。详情见第6章。
专知便捷查看,访问下面网址
https://www.zhuanzhi.ai/vip/417fc99259a093c70fa5795d201783c7
本文转自 | 专知
本文暂时没有评论,来添加一个吧(●'◡'●)