项目介绍:
在如今信息大爆炸时期,文本信息过载问题日益严重,通过文本摘要的方式获取到海量信息中
的关键信息,以便于人们更好的理解信息,充分利用有价值的数据。
项目内容:
1、基于 Seq2seq 架构创建 Baseline-1 模型并使用提前训练词向量的方式来优化模型;
2、通过优化框架得到 PGN+attention 结构的 Baseline-2 模型,解决了 Baseline-1 无法处理 OO
V 单词的问题;
3、通过优化训练算法得到 PGN+attention+coverage 结构的 Baseline-3 模型,解决之前模型中
无效重复的问题;
4、通过优化解码算法得到 PGN+attention+beam search 结构的 Baseline-4 模型,解决了无效
重复问题的同时提升了长文本摘要的表达。