用transformer的机器翻译,进行中文到英文的翻译,使用的是cmn-eng这个小型数据集,用transformer让模型自由学习写诗,用transformer共享encoder,decoder词嵌入,实现对联模型,对于编码器原序列,用遮挡填充的掩码,这样编码器的输出中序列中的每个token的表示就变成了整个序列token表示的加权和形式,解码器自注意力用因果掩码,让目标输入序列注意到自己已经有的token序列,之后用自注意力后的输出做query,编码器的输出做key,value,因为编码器的输出中每个token时间步都是整个序列的混合信息,所以解码器跨注意力时,解码器的输出就包含了源序列整个序列的上下文信息,以此来预测下一个token