孟子中文BERT金融行业预训练模型
mengzi-bert-base-fin是一个针对金融场景的领域语言模型。本模型在mengzi-bert-base模型基础上, 继续使用20G财经新闻和研究报告进行微调。
详细的技术报告请参考:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese
模型描述
孟子中文Bert预训练模型与Bert结构相同,不包含下游任务,需要在特定任务上 Finetune 后使用。
Bert模型的详细介绍见:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
在预训练技术上,不同于Bert,孟子采用了:
- 语言学驱动的目标 - 在原始MLM和NSP目标的基础上,额外使用POS-Tagging和NER两个序列标注任务作为辅助目标。POS和NE标签使用spaCy标注。
- 序列关系目标 - 为了更好地拟合句子间的关系信息,孟子加入了Sentence Order Prediction (SOP)作为训练目标。
- 动态梯度修正 - 使用了一系列动态梯度修正技术提高模型的容量和鲁棒性,改善MLM导致的对原始句子结构的干扰。
期望模型使用方式以及适用范围
本模型主要用于中文相关下游任务微调,也可以直接使用于完形填空任务。用户可以基于自有训练数据进行微调,具体调用方式请参考代码示例。
如何使用
在安装完成Modelscope-lib之后即可进行下游任务finetune,下面给了一个直接使用本模型进行完形填空的范例。
代码范例
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
fill_mask_zh = pipeline(Tasks.fill_mask, model='langboat/mengzi-bert-base-fin')
result_zh = fill_mask_zh('生活的真谛是[MASK]。')
print(result_zh['text'])
模型局限性以及可能的偏差
本模型基于20G财经新闻和研究报告(金融领域)进行微调,在其他垂直领域文本上的效果会有降低,请用户自行评测后决定如何使用。
相关论文以及引用信息
如果我们的模型对您有帮助,请您引用我们的文章:
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
评论