基于第三方监督的词对齐工具

Third-Party Supervised Word Aligner

模型描述

词对齐任务旨在挖掘平行语料中互为翻译的词对，由于缺乏精确且足够的标注数据集，现有的工作多基于自学习的方式进行训练。本工作提出借助第三方词对齐工具生成监督信号，以微调大规模跨语言预训练模型（mBERT,XLM），进而得到性能更优的神经词对齐工具。

framework

模型效果：
输入：贝利在墨西哥推出自传 ||| pele promotes autobiography in mexico
输出：0-0 1-3 2-4 3-1 4-2

期望模型使用方式以及适用范围

本模型主要用于对平行语料进行对齐，输入为一组分词后的平行文本，输出为单词级别的对齐信息。具体使用方式请参考代码示例。

如何使用

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = 'jpzhang/Third-Party-Supervised-Word-Aligner-mBERT-base-zhen'
input = {"sentence_pair": '贝利 在 墨西哥 推出 自传 。||| pele promotes autobiography in mexico .'}
pipeline = pipeline(Tasks.word_alignment, model=model_id)
result = pipeline(input)
print(result['output'])

模型局限性以及可能的偏差

本模型借助第三方监督信号进行微调，未使用真实标注。模型在LDC(中英)、KFTT（日英）和Europarl（德英，英法，罗英）数据集上训练，不同场景下有可能产生一些偏差，请用户自行评测后决定如何使用。

训练数据介绍

中英：LDC数据集(训练，出于版权原因，请自行获取) ，清华开源数据集（验证与测试）
日英：KFTT
德英，英法，罗英：Zenkel等开源

模型训练流程

数据预处理

参考 Zenkel等开源

训练

暂不支持在ModelScope内部进行训练（工作中），可暂时参考我们的开源项目。

数据评估及结果

我们采用AER评测指标进行评估。

	zh-en	de-en	en-fr	ro-en	ja-en	avg
FastAlign¹	27.3	27.0	10.5	32.1	51.1	29.6
GIZA++²	18.5	20.6	5.9	26.4	48.0	23.9
SimAlign³	19.6	19.0	6.0	30.5	48.6	26.3
AwesomeAlign⁴	13.3	15.6	4.4	23.0	38.4	18.9
MaskAlign⁵	13.8	14.4	4.4	19.5	40.8	18.6
Ours(mBERT)	11.0	14.8	3.8	19.3	33.2	16.4
Ours(XLM)	11.3	13.9	4.0	18.6	33.4	16.2

参考工作：

Dyer et al. A simple, fast, and effective reparameterization of ibm model 2. 2013.
Och and Ney. A systematic comparison of various statistical alignment models. 2003.
Sabet et al. SimAlign: High quality word alignments without parallel training data using static and contextualized embeddings. 2020.
Dou and Neubig. Word alignment by fine-tuning embeddings on parallel corpora. 2021.
Chen et al. Maskalign: Self-supervised neural word alignment. 2021.

基于第三方监督的词对齐工具-mBERT-base-中英方向

作品详情