基于pytorch框架,编写深度残差神经网络以及实现蒙特卡洛树搜索,同时完成自我对弈代码,通过自我对弈获取训练集,不断迭代。深度残差神经网络包含两个输出,策略输出以及价值输出,这两者将会辅助蒙特卡洛树搜索通过不断训练以达到良好的棋力
评论