MaSTS文本相似度-中文-搜索-CLUE语义匹配-large

我要开发同款
匿名用户2024年07月31日
44阅读

技术信息

开源地址
https://modelscope.cn/models/iic/nlp_masts_sentence-similarity_clue_chinese-large
授权协议
Apache License 2.0

作品详情

MaSTS中文文本相似度-CLUE语义匹配模型介绍

MaSTS中文文本相似度-CLUE语义匹配模型是基于MaSTS预训练模型-CLUE语义匹配,在QBQTC数据集上训练得到的相似度匹配模型。通过集成此模型在CLUE语义匹配榜上获得了第一名的成绩。

使用教程请参考 https://developer.aliyu.com/article/1128425 和Jupyter Notebooktutorial.ipyb

模型描述

模型按照BERT文本对分类的方式,在QBQTC数据集上进行微调。

期望模型使用方式以及适用范围

输入形如(文本A,文本B)的文本对数据,模型会给出该文本对相关性的标签(“0”,"1","2")以及相应的概率。相关性的含义:0,相关程度差;1,有一定相关性;2,非常相关。数字越大相关性越高。

模型局限性以及可能的偏差

模型训练数据有限,在其他数据上效果可能存在一定偏差。

如何使用

环境安装

请参考ModelScope环境安装

推理代码范例

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks


similarity_pipelie = pipelie(Tasks.setece_similarity, 'damo/lp_masts_setece-similarity_clue_chiese-large', model_revisio='v1.0.0')
similarity_pipelie(iput=('小孩咳嗽感冒', '小孩感冒过后久咳嗽该吃什么药育儿问答宝宝树'))

Fietue/训练代码范例

import os.path as osp
from modelscope.traiers import build_traier
from modelscope.msdatasets import MsDataset
from modelscope.utils.hub import read_cofig


model_id = 'damo/lp_masts_backboe_clue_chiese-large'
dataset_id = 'QBQTC'

WORK_DIR = 'workspace'

cfg = read_cofig(model_id, revisio='v1.0.0')
cfg.trai.work_dir = WORK_DIR
cfg_file = osp.joi(WORK_DIR, 'trai_cofig.jso')
cfg.dump(cfg_file)

trai_dataset = MsDataset.load(dataset_id, amespace='damo', subset_ame='default', split='trai', keep_default_a=False)
eval_dataset = MsDataset.load(dataset_id, amespace='damo', subset_ame='public', split='test', keep_default_a=False)

kwargs = dict(
    model=model_id,
    model_revisio='v1.0.0',
    trai_dataset=trai_dataset,
    eval_dataset=eval_dataset,
    cfg_file=cfg_file,
)

traier = build_traier(default_args=kwargs)

prit('===============================================================')
prit('pre-traied model loaded, traiig started:')
prit('===============================================================')

traier.trai()

prit('===============================================================')
prit('trai success.')
prit('===============================================================')

for i i rage(cfg.trai.max_epochs):
    eval_results = traier.evaluate(f'{WORK_DIR}/epoch_{i+1}.pth')
    prit(f'epoch {i} evaluatio result:')
    prit(eval_results)

prit('===============================================================')
prit('evaluate success')
prit('===============================================================')

数据评估及结果

Dataset Marco F1 Accuracy
公开测试集(test_public) 74.1 79.7

榜单

功能介绍

MaSTS中文文本相似度-CLUE语义匹配模型介绍 MaSTS中文文本相似度-CLUE语义匹配模型是基于MaSTS预训练模型-CLUE语义匹配,在QBQTC数据集上训练得到的相似度匹配模型。通过集成此

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论