集合三大类无模型强化学习算法,BAIR开源RL代码库rlpyt(2)
在目前已经介绍的配置中,采样器和优化器都是在同一个 Python 进程中顺序运行的。而在某些案例中,异步运行优化和采样可以实现更好的硬件利用率,因为这使得优化和采样连续运行。BAIR 在复现 R2D2 时就是这样,基于真实机器人学习也是这样的模式。 在异步模式下,运行训练和采样的是两个单独的 Python 进程,之后 replay buffer 基于共享内存将二者连接起来。采样的运行过程不受干扰,因为数据批次使用了双缓冲。而另一个 Python 进程在写锁模式下将分批数据复制到主缓冲区,详见下图。优化器和采样器可以独立并行,它们使用不同数量的 GPU,以实现最好的整体利用率和速度。 异步采样/优化模式。两个单独的 Python 进程通过共享内存的 replay buffer 来运行优化和采样(读写锁模式下)。内存复制器进程将分批数据写入 replay buffer,使得采样器可以即刻处理分批数据。 哪种配置最好? 对于创建或修改智能体、模型、算法和环境而言,串行模式最易于 debug。当串行程序流畅运行时,探索更复杂的基础架构就很轻松了,如并行采样、多 GPU 优化和异步采样,因为它们大致上是基于相同的接口构建的。最优配置取决于具体的学习问题、可用的计算机硬件和运行实验的数量。rlpyt 中包含的并行模式仅限于单节点,尽管其组件可作为分布式框架的构造块。 性能案例分析:R2D2 BAIR 展示了在 Atari 领域中复现 R2D2 结果的学习曲线,在以前只有使用分布式计算才会出现这样的学习曲线。该基准包括使用约 100 亿样本(400 亿帧)基于 replay buffer 训练得到的循环智能体。R2D1(非分布式 R2D2)使用 rlpyt 中多个更先进的基础架构组件来实现它,即使用 alternating-GPU 采样器的多 GPU 异步采样模式。下图展示了复现过程中的学习曲线,其中多个超过了之前的算法。我们需要注意,这些结果并未在所有游戏上完美复现,例如 Gravitar 游戏在比较低的得分处就已进入平台期。详情参见相关论文。 在 rlpyt 中使用一台计算机复现 R2D2 的学习曲线。 R2D2 的最初分布式实现使用了 256 块 CPU 进行采样,一块 GPU 执行训练,每秒运行 66,000 步。而 rlpyt 仅使用了一个包含 24 块 CPU(2x Intel Xeon Gold 6126)和 3 块 Titan-Xp GPU 的工作站,以每秒 16000 的步数完成实现。对于无法使用分布式基础架构的情况而言,这已经足够执行实验了。未来研究的一种可能是:利用多 GPU 优化增加 replay ratio,从而加快学习速度。下图展示了相同学习曲线在 3 种不同度量指标下的呈现,这 3 种度量指标分别是:环境步数(即 1 步=4 帧)、模型更新和时间。它在不到 138 个小时的时间内走完了 80 亿步,完成了 100 万次模型更新。 rlpyt 使用 24 块 CPU 和 3 块 Titan-Xp GPU 在异步采样模式下执行 R2D1 实现,其学习曲线在横坐标不同(环境步数、模型更新和时间)时的呈现如上图所示。 新型数据结构:namedarraytuple rlpyt 提出了新的目标类别 namedarraytuples,可使 numpy 数组或 torch 张量的组织更加容易。namedarraytuple 本质上是一个 namedtuple,将索引或切片(sliced)数组读/写呈现在结构中。 试着写入一个(可能嵌套的)数组字典,这些数组具备一些共同的维度:
将上述代码替换成下列代码:
重要的是,不管 dest 和 src 是不同的 numpy 数组还是随机结构的数组集合,语法都是相同的(dest 和 src 的结构必须匹配,或者 src 是可应用于所有字段的单个值)。rlpyt 广泛使用该数据结构:使用相同的矩阵主维组织训练数据的不同元素,使其易于与期望时间维度或批量维度交互。此外,namedarraytuples 天然支持具备多模态动作或观测结果的环境。当神经网络的不同层使用不同模式时,这非常有用,因为它允许中间基础架构代码保持不变。 相关研究 深度强化学习新手可以先阅读其他资源,了解强化学习算法,如 OpenAI Spinning Up。 OpenAI Spinning Up 代码地址:https://github.com/openai/spinningup 文档地址:https://spinningup.openai.com/en/latest/ (编辑:ASP站长网) |