DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？(2)

发布时间：2019-09-20 11:06 所属栏目：19 来源：杨鲤萍

导读：SpriteWorld也可以用于强化学习以外的其他目的。例如：它被用于生成具有控制因子分布的图像数据集，如论文「Spatial Broadcast Decoder: A Simple Architecture for Learning Disentangled Representations in VAEs

SpriteWorld 也可以用于强化学习以外的其他目的。例如：它被用于生成具有控制因子分布的图像数据集，如论文「Spatial Broadcast Decoder: A Simple Architecture for Learning Disentangled Representations in VAEs」（watters 等人，2019，https://arxiv.org/abs/1901.07017）。

它还可以很容易地扩展到生成与简单物理力（如弹簧、重力等）相互作用的物体的数据集，这对于视觉动力学的无监督学习研究是有用的。

GitHub 地址：https://github.com/deepmind/spriteworld

bsuite

我们试图将 bsuite（Behaviour Suite for Reinforcement Learning，强化学习行为套件）打造成为强化学习领域的 MNIST。

DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？

具体而言，bsuite 是一系列实验，旨在突出智能体可扩展性的关键点。这些实验都体现了一些基本的问题，例如「探索」或「记忆」，其实验方式可以很容易地进行测试和迭代。bsuite 有两个主要目标：

收集清晰、信息量丰富且可扩展的问题，这些问题捕获了高效和通用学习算法设计中的关键问题；
通过在这些共享基准上的表现来研究智能体的行为。

bsuite 的当前实现可以在不同环境中自动执行手实验，并收集了相应的指标，这些指标可以简化 DRL 智能体的训练。同时，因为 bsuite 是一系列实验的集合，所以它在实验子目录中定义。每个子目录对应一个实验，包含：

定义强化学习环境的一种文件，它可以配置为提供不同的难度等级或不同的随机种子（for example）；
此环境的关键字参数序列，在实验的 sweep.py 文件中的 settings 变量中定义；
一个 analysis.py 文件，用于定义所提供的 jupyter 计算机中使用的绘图；

当通过加载和记录*函数加载环境时，bsuite 通过记录每个环境中的结果来工作。这意味着任何实验都将自动输出正确格式的数据，以便使用计算机进行分析，而不受任何智能体或算法结构的限制。

GitHub 地址：https://github.com/deepmind/bsuite

（编辑：ASP站长网）