基于第三方监督的词对齐工具-mBERT-base-中英方向

我要开发同款
匿名用户2024年07月31日
45阅读
所属分类ai、bert、pytorch
开源地址https://modelscope.cn/models/jpzhang/Third-Party-Supervised-Word-Aligner-mBERT-base-zhen

作品详情

基于第三方监督的词对齐工具

Third-Party Supervised Word Aligner

模型描述

词对齐任务旨在挖掘平行语料中互为翻译的词对,由于缺乏精确且足够的标注数据集,现有的工作多基于自学习的方式进行训练。本工作提出借助第三方词对齐工具生成监督信号,以微调大规模跨语言预训练模型(mBERT,XLM),进而得到性能更优的神经词对齐工具。

framework

模型效果:
输入:贝利 在 墨西哥 推出 自传 ||| pele promotes autobiography in mexico
输出:0-0 1-3 2-4 3-1 4-2

期望模型使用方式以及适用范围

本模型主要用于对平行语料进行对齐,输入为一组分词后的平行文本,输出为单词级别的对齐信息。具体使用方式请参考代码示例。

如何使用

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = 'jpzhang/Third-Party-Supervised-Word-Aligner-mBERT-base-zhen'
input = {"sentence_pair": '贝利 在 墨西哥 推出 自传 。||| pele promotes autobiography in mexico .'}
pipeline = pipeline(Tasks.word_alignment, model=model_id)
result = pipeline(input)
print(result['output'])

模型局限性以及可能的偏差

本模型借助第三方监督信号进行微调,未使用真实标注。模型在LDC(中英)、KFTT(日英)和Europarl(德英,英法,罗英)数据集上训练,不同场景下有可能产生一些偏差,请用户自行评测后决定如何使用。

训练数据介绍

中英:LDC数据集(训练,出于版权原因,请自行获取) ,清华开源数据集(验证与测试)
日英:KFTT
德英,英法,罗英:Zenkel等开源

模型训练流程

数据预处理

参考 Zenkel等开源

训练

暂不支持在ModelScope内部进行训练(工作中),可暂时参考我们的 开源项目

数据评估及结果

我们采用AER评测指标进行评估。

zh-en de-en en-fr ro-en ja-en avg
FastAlign1 27.3 27.0 10.5 32.1 51.1 29.6
GIZA++2 18.5 20.6 5.9 26.4 48.0 23.9
SimAlign3 19.6 19.0 6.0 30.5 48.6 26.3
AwesomeAlign4 13.3 15.6 4.4 23.0 38.4 18.9
MaskAlign5 13.8 14.4 4.4 19.5 40.8 18.6
Ours(mBERT) 11.0 14.8 3.8 19.3 33.2 16.4
Ours(XLM) 11.3 13.9 4.0 18.6 33.4 16.2

参考工作:

  1. Dyer et al. A simple, fast, and effective reparameterization of ibm model 2. 2013.
  2. Och and Ney. A systematic comparison of various statistical alignment models. 2003.
  3. Sabet et al. SimAlign: High quality word alignments without parallel training data using static and contextualized embeddings. 2020.
  4. Dou and Neubig. Word alignment by fine-tuning embeddings on parallel corpora. 2021.
  5. Chen et al. Maskalign: Self-supervised neural word alignment. 2021.

相关论文以及引用信息

如果我们的模型对您有帮助,请您引用我们的论文:

@article{zhang2022third,
  title={Third-Party Aligner for Neural Word Alignments},
  author={Zhang, Jinpeng and Dong, Chuanqi and Duan, Xiangyu and Zhang, Yuqi and Zhang, Min},
  journal={arXiv preprint arXiv:2211.04198},
  year={2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论