OpenAIGym是一个用于开发和比较强化学习算法的工具包。
gym不对代理的结构做任何假设,并且与任何数值计算库兼容,例如TensorFlow或Theano。
有关OpenAIGym的白皮书,请访问https://arxiv.org/abs/1606.01540,这里有一个BibTeX条目,可以在出版物中引用它:
@misc{1606.01540,Author={GregBrockmanandVickiCheungandLudwigPetterssonandJonasSchneiderandJohnSchulmanandJieTangandWojciechZaremba},Title={OpenAIGym},Year={2016},Eprint={arXiv:1606.01540},}Basics强化学习有两个基本概念:环境(即外部世界)和代理(即你正在编写的算法)。代理向环境发送操作,环境回复观察和奖励(即分数)。
核心的gym界面是Env,它是统一的环境界面。没有代理商界面。以下是应该了解的Env方法:
reset(self)::重置环境的状态。返回观察。step(self,action):一步一步进入环境。返回观察、奖励、完成、信息。render(self,mode='human'):渲染一帧环境。默认模式将执行人性化的操作,例如弹出窗口。安装可以执行最小的安装:
gitclonehttps://github.com/openai/gym.gitcdgympipinstall-e.可以直接从PyPI进行最小的打包版本安装:
pipinstallgym可以立即运行一些环境:
算法toy_textclassic_control(需要pyglet来渲染)建议首先使用这些环境,然后再安装其余环境的依赖项。
评论