Arcade Learning Environment (ALE): 一个包含Atari 2600游戏的AI测试平台(Gym中的Atari是对ALE的封装)TNG快充网络
paper: https://arxiv.org/pdf/1207.4708TNG快充网络
TNG快充网络
Gym :http://gym.openai.comTNG快充网络
Universe:http://universe.openai.comTNG快充网络
这两个均出自OpenAI。Gym不说了,Universe可以看成是升级版本的Gym,从名称就可以看出来,包含了更多更复杂的环境(flash游戏、PC游戏等)。现在还在开发中。TNG快充网络
TNG快充网络
DeepMind LabTNG快充网络
主要是第一视角的3D游戏环境,详见paper以及DeepMind Blog的介绍TNG快充网络
paper: https://arxiv.org/pdf/1612.03801TNG快充网络
blog:Open-sourcing DeepMind Lab | DeepMindTNG快充网络
TNG快充网络
FAIR TorchCraftTNG快充网络
Facebook开源的环境,主要针对实时策略游戏(星际争霸!)TNG快充网络
paper:https://arxiv.org/pdf/1611.00625TNG快充网络
TNG快充网络
ViZDoomTNG快充网络
一个基于第一人称3D射击游戏Doom的RL测试平台TNG快充网络
paper:https://arxiv.org/pdf/1605.02097.pdfTNG快充网络
TNG快充网络
The Open Racing Car Simulato(TORCS)TNG快充网络
一个3D赛车模拟环境TNG快充网络
website:torcsTNG快充网络
TNG快充网络
MuJoCoTNG快充网络
一个物理模拟引擎,主要是连续动作空间的task。Mujoco不是开源的,可以申请一个月的试用。Gym中有集成了Mujoco。TNG快充网络
website:MuJoCoTNG快充网络
TNG快充网络
另外,OpenAI还搞了一个专门针对连续动作空间的benchmark,并且实现了几种连续动作空间的RL算法TNG快充网络
github:openai/rllabTNG快充网络
TNG快充网络
回答题主的疑问,其实Gym中很多environment状态空间比较小(不是raw pixel),比如classical control里面的task,Mujoco环境的状态也不是图像,而是仿真物的关节位置信息等。TNG快充网络