项目使用DDPG算法和Keras对TORCS赛车模拟平台进行训练,以达到最优路径和最短时间的训练效果。DDPG:其主要结合改进了以下三种算法或框架: · DPG(Deterministic Policy Gradient)确定性策略梯度算法 · DQN(Deep Q-Network)深度Q网络 · AC(Actor-Critic)随机离线策略 Actor−Critic框架DDPG可以看成是DQN的扩展版 ,不同的是,以往的DQN在最终输出的是一个动作向量,对于DDPG是最终确定地只输出一个动作。而且,DDPG让DQN可以扩展到连续的动作空间。可以用来作为强化学习、机器学习、深度学习课设。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论