加入收藏 | 设为首页 | 交流中心 | 我要投稿 | RSS
您当前的位置:首页 > 技术中心 > 高谈阔论

搞Reinforcement learning,除了OpenAI Gym,还有什么测试平台?

时间:2017-03-31 17:59:14  来源:  作者:

 TNG快充网络

搞Reinforcement learning,除了OpenAI Gym,还有什么测试平台?

OpenAI gym平台上的好多都是视觉输入,但是对于一般的笔记本可能需要大量的计算时间,我想找一下有没有不是视觉输入的RL测试平台。TNG快充网络

以前看过一个类似OpenAI gym的平台,它的输入是一些特征,但是忘了这个网站的名字了,不知道大家有没有用过类似的平台?TNG快充网络

关注者
34
 
被浏览
931
 

2 个回答

可以参考下面这篇文章,一个关于现有RL测试平台的总结TNG快充网络

Getting ready for AI based gaming agents - Overview of Open Source Reinforcement Learning PlatformsTNG快充网络

具体来看,OpenAI 前阵子推出了Universe (原来的Gym仍保留), DeepMind 方面有 DeepMind lab, 这两者应该是当前关注度最高的RL测试平台了,其他的还有基于 Minecraft,Doom 等游戏的测试。总的来说,的确大部分任务都是基于视觉输入的游戏测试。如果想做其他类型任务,机器人控制是一个选择,比如 MuJoCo,在 OpenAI Gym 中就有。这类任务维数比视觉输入要低,但一般都是 continuous control, 所以相比于玩游戏中的 discrete control 也有其自身的困难。早一点的paper 可以参考 Continuous control with deep reinforcement learning,Benchmarking Deep Reinforcement Learning for Continuous Control。TNG快充网络

话说去看看这个领域最新paper的话,你会发现大部分数值测试都会拿游戏或者机器人控制来作为例子,个人感觉两者中至少得选一个来展示实验结果是绕不过的。TNG快充网络

最后,很期待 Deep RL 能在其他类型的任务上引入标准化的测例,找到有价值的应用。TNG快充网络

Arcade Learning Environment (ALE): 一个包含Atari 2600游戏的AI测试平台(Gym中的Atari是对ALE的封装)TNG快充网络

paper: arxiv.org/pdf/1207.4708TNG快充网络

TNG快充网络

Gym :gym.openai.comTNG快充网络

Universe:universe.openai.comTNG快充网络

这两个均出自OpenAI。Gym不说了,Universe可以看成是升级版本的Gym,从名称就可以看出来,包含了更多更复杂的环境(flash游戏、PC游戏等)。现在还在开发中。TNG快充网络

TNG快充网络

DeepMind LabTNG快充网络

主要是第一视角的3D游戏环境,详见paper以及DeepMind Blog的介绍TNG快充网络

paper: arxiv.org/pdf/1612.0380TNG快充网络

blog:Open-sourcing DeepMind Lab | DeepMindTNG快充网络

TNG快充网络

FAIR TorchCraftTNG快充网络

Facebook开源的环境,主要针对实时策略游戏(星际争霸!)TNG快充网络

paper:arxiv.org/pdf/1611.0062TNG快充网络

TNG快充网络

ViZDoomTNG快充网络

一个基于第一人称3D射击游戏Doom的RL测试平台TNG快充网络

paper:arxiv.org/pdf/1605.0209TNG快充网络

TNG快充网络

The Open Racing Car Simulato(TORCS)TNG快充网络

一个3D赛车模拟环境TNG快充网络

website:torcsTNG快充网络

TNG快充网络

MuJoCoTNG快充网络

一个物理模拟引擎,主要是连续动作空间的task。Mujoco不是开源的,可以申请一个月的试用。Gym中有集成了Mujoco。TNG快充网络

website:MuJoCoTNG快充网络

TNG快充网络

另外,OpenAI还搞了一个专门针对连续动作空间的benchmark,并且实现了几种连续动作空间的RL算法TNG快充网络

github:openai/rllabTNG快充网络

TNG快充网络

回答题主的疑问,其实Gym中很多environment状态空间比较小(不是raw pixel),比如classical control里面的task,Mujoco环境的状态也不是图像,而是仿真物的关节位置信息等。TNG快充网络

来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门