建立能够按照不同的用户偏好生成Pareto解的encoder-decoder结构的深度神经网络模型,并基于REINFORCE算法、A2C算法、PPO算法进行模型训练,对比不同训练算法下智能体性能,最终获得优于传统运筹优化算法和进化算法的智能体模型。
评论