深入分析六子折线棋的特征,以 AlphaZero 模型为参考,基于深度强化学习理论,将深度学习和强化学习相结合。本次实验将尝试用蒙特卡洛树自我对弈得到棋谱,并用于训练策略价值网络,以此做到不依赖已有知识进行自我学习。同时本文将在 AlphaZero 的模型基础上,结合六子折线棋本身的特点对模型进行改进和完善。
评论