基于DQN的贪吃蛇智能体实现

我要开发同款
proginn18575113632023年06月21日
360阅读
所属分类IT

作品详情

强化学习是试错的艺术,通过不断的尝试来学习更好的策略。近年来,强化 学习在游戏、棋牌、机器人等领域展现出了强大的潜力,是机器人领域一个研究热点[2],基本思想是通过智能体(Agent)在环境中不断尝试,学习完成目标的更优策略,以达到从环境中获得奖励值更多的目的。强化学习算法被许多人认为是走向通用人工智能道路的关键算法。
本文针对DQN强化学习算法[1]在贪吃蛇路径规划中这一具体问题的应用中,对其状态空间、奖励函数、动作空间、网络结构等方面的设计进行了一系列的探索。贪吃蛇机器人通过DQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的 Q 值。移动贪吃蛇采用ε-greedy的探索策略,选择一个最优动作,到达下一个观察。贪吃蛇机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验数据证明,贪吃蛇在多变环境中可以很好地获取最优路径去寻觅果实。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论