xiaobu-embedding-v2

我要开发同款
匿名用户2024年07月31日
84阅读
开发技术bert、Pytorch
所属分类ai、mteb
开源地址https://modelscope.cn/models/maple77/xiaobu-embedding-v2

作品详情

xiaobu-embedding-v2

基于piccolo-embedding[1],主要改动如下:

  • 合成数据替换为xiaobu-embedding-v1[2]所积累数据
  • 在circle_loss[3]视角下统一处理CMTEB的6类问题,最大优势是可充分利用原始数据集中的多个正例,其次是可一定程度上避免考虑多个不同loss之间的权重问题

Usage (Sentence-Transformers)

pip install -U sentence-transformers

相似度计算:

from sentence_transformers import SentenceTransformer
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = SentenceTransformer('lier007/xiaobu-embedding-v2')
embeddings_1 = model.encode(sentences_1, normalize_embeddings=True)
embeddings_2 = model.encode(sentences_2, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

Reference

  1. https://github.com/hjq133/piccolo-embedding
  2. https://huggingface.co/lier007/xiaobu-embedding
  3. https://arxiv.org/abs/2002.10857
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论