点击空白处退出提示
作品详情
本文针对DQN强化学习算法[1]在贪吃蛇路径规划中这一具体问题的应用中,对其状态空间、奖励函数、动作空间、网络结构等方面的设计进行了一系列的探索。贪吃蛇机器人通过DQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的 Q 值。移动贪吃蛇采用ε-greedy的探索策略,选择一个最优动作,到达下一个观察。贪吃蛇机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验数据证明,贪吃蛇在多变环境中可以很好地获取最优路径去寻觅果实。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论