斯坦福强化学习系统模拟进化
数亿年的进化使我们的星球拥有各种各样的生命形式,每一种都以自己的方式聪明。每个物种都进化到发展出与生俱来的技能、学习能力和确保其在环境中生存的物理形式。
但是,尽管受到自然和进化的启发,人工智能领域主要集中在单独创建智能元素并在开发后将它们融合在一起。虽然这种方法取得了很好的结果,但它也限制了 AI 代理在一些基本技能中的灵活性,即使是最简单的生命形式。
在科学杂志《自然》上发表的一篇新论文中,斯坦福大学的人工智能研究人员提出了一种新技术,可以帮助采取措施克服其中的一些限制。这项名为“深度进化强化学习”的新技术使用复杂的虚拟环境和强化学习来创建可以在物理结构和学习能力上同时进化的虚拟代理。这些发现可能对人工智能和机器人研究的未来产生重要影响。
进化很难模拟
在自然界中,身体和大脑是一起进化的。跨越许多代,每个动物物种都经历了无数的突变循环,以长出四肢、器官和神经系统,以支持其在环境中所需的功能。蚊子有热视觉来发现体温。蝙蝠有翅膀可以飞行,还有回声定位装置可以在黑暗的地方导航。海龟有鳍状肢可以游泳,并且有一个磁场探测器系统可以长途跋涉。人类有一个直立的姿势,可以解放他们的手臂,让他们看到遥远的地平线,可以操纵物体的手和灵活的手指,以及使他们成为地球上最好的社会生物和问题解决者的大脑。
有趣的是,所有这些物种都是数十亿年前出现在地球上的第一个生命形式的后代。基于环境造成的选择压力,那些第一批生物的后代向许多不同的方向进化。
研究生命和智力的进化很有趣。但复制它是极其困难的。一个想要以与进化相同的方式重建智能生命的 AI 系统必须搜索一个非常大的可能形态空间,这在计算上非常昂贵。这将需要大量并行和连续的试错循环。
AI 研究人员使用多种捷径和预先设计的功能来克服其中一些挑战。例如,他们修复人工智能或机器人系统的架构或物理设计,并专注于优化可学习参数。另一个捷径是使用拉马克而不是达尔文进化,其中 AI 代理将他们学习的参数传递给他们的后代。另一种方法是分别训练不同的 AI 子系统(视觉、运动、语言等),然后在最终的 AI 或机器人系统中将它们组合在一起。虽然这些方法加快了过程并降低了训练和进化 AI 代理的成本,但它们也限制了可以实现的灵活性和结果的多样性。
深度进化强化学习
在他们的新工作中,斯坦福大学的研究人员旨在使人工智能研究更接近真正的进化过程,同时尽可能降低成本。“我们的目标是阐明环境复杂性、进化形态和智能控制的可学习性之间关系的一些原则,”他们在论文中写道。
他们的框架称为深度进化强化学习。在 DERL 中,每个智能体都使用深度强化学习来获得在其生命周期内最大化其目标所需的技能。DERL 使用达尔文进化来搜索形态空间以寻找最佳解决方案,这意味着当新一代 AI 代理产生时,它们只会继承其父母的物理和建筑特征(以及轻微的突变)。没有学习到的参数会跨代传递。
研究人员写道:“DERL 开启了进行大规模计算机实验的大门,以产生关于学习和进化如何协同创造环境复杂性、形态智能和控制任务的可学习性之间复杂关系的科学见解。”
模拟进化
对于他们的框架,研究人员使用了MuJoCo,这是一个提供高精度刚体物理模拟的虚拟环境。他们的设计空间被称为 UNIversal aniMAL (UNIMAL),其目标是创建能够在各种地形中学习运动和对象操纵任务的形态。
环境中的每个代理都由定义其四肢和关节的基因型组成。每个代理的直系后代继承父母的基因型,并经历可以创建新肢体、移除现有肢体或对诸如自由度或肢体大小等特征进行小的修改的突变。
每个代理都经过强化学习训练,以在各种环境中最大化奖励。最基本的任务是移动,其中智能体会因其在一个情节中移动的距离而获得奖励。物理结构更适合穿越地形的代理可以更快地学会使用四肢四处移动。
为了测试系统的结果,研究人员在三种类型的地形中生成了代理:平坦 (FT)、可变 (VT) 和具有可修改对象的可变地形 (MVT)。平坦的地形对代理的形态施加的选择压力最小。另一方面,多变的地形迫使代理开发更通用的物理结构,可以爬坡和绕过障碍物。MVT 变体具有额外的挑战,即要求代理操纵对象以实现其目标。
DERL的好处
DERL 的有趣发现之一是结果的多样性。进化 AI 的其他方法往往会趋同于一种解决方案,因为新智能体直接继承了其父母的体质和学习。但在 DERL 中,只有形态数据会传递给后代,系统最终创建了一组多样化的成功形态,包括两足动物、三足动物和有和没有手臂的四足动物。
同时,该系统显示了鲍德温效应的特征,这表明学习速度更快的智能体更有可能繁殖并将其基因传递给下一代。根据斯坦福大学的论文,DERL 表明进化“选择更快的学习者,而没有任何直接的选择压力”。
研究人员写道:“有趣的是,可以在未来的研究中利用这种形态学鲍德温效应的存在来创造具有较低样本复杂性和较高泛化能力的实体代理。”
最后,DERL 框架还验证了更复杂的环境将产生更智能的代理的假设。研究人员在八种不同的任务中测试了进化后的智能体,包括巡逻、逃离、操纵物体和探索。他们的研究结果表明,总的来说,在可变地形中进化的智能体比只经历过平坦地形的 AI 智能体学习速度更快,表现更好。
他们的发现似乎与DeepMind 研究人员的另一个假设一致,即复杂的环境、合适的奖励结构和强化学习最终会导致各种智能行为的出现。