TEAM图文检索模型-中文-large

我要开发同款
匿名用户2024年07月31日
34阅读
所属分类aipytorch、 multi-modal-similar、Alibaba、R@1、multi-modal
开源地址https://modelscope.cn/models/iic/multi-modal_team-vit-large-patch14_multi-modal-similarity
授权协议Apache License 2.0

作品详情

TEAM图文检索模型

视觉encoder采用vit-large-patch14结构,文本encoder采用bert-base结构。

模型在多个中文图文检索数据集上进行了zero-shot效果测试,并达到state-of-the-art效果。

模型结构信息

Model layers width heads embedding dim
Vision Transformer 24 1024 16 768
Text Transformer 12 768 12 768

使用方式和范围

使用方式:

  • 直接推理,对输入的图像、文本数据进行特征提取,并计算相似度

使用场景:

  • 适用于通用场景下的图文跨模态检索任务

代码范例:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
test_img = 'data/test/images/multimodal_similarity.jpg'
test_str1 = '一个上了年纪的女人在城镇中骑着自行车一个黄色出租车正要从她身边驶过'
test_str2 = '穿着蓝色连衣裙的那个女人正冲着行来的车辆伸出她的手'
multi_modal_similarity_pipeline = pipeline(task=Tasks.multi_modal_similarity)
test_input1 = {'img': test_img, 'text': test_str1}
test_input2 = {'img': test_img, 'text': test_str2}
output1 = multi_modal_similarity_pipeline(test_input1)
output2 = multi_modal_similarity_pipeline(test_input2)
print('image: {}, text: {}, similarity: {}'.format(test_img, test_str1, output1['scores']))
print('image: {}, text: {}, similarity: {}'.format(test_img, test_str2, output2['scores']))

模型训练

预处理

--图像输入:RandomResizedCrop到224*224,随机水平翻转

--文本输入:最多保留30个token

LR scheduler

初始LR为0.001,每30000个iteration之后减小为1/5,共训练90000个iteration。

数据评估及结果

该模型在3个公开中文图文检索数据集上进行了zero-shot评测,Top1检索准确率为:

Dataset COCO-CN Flickr30K-CN Flickr8K-CN
Text Retrieval 67.7 88.1 77.7
Image Retrieval 66.7 69.8 63.3

相关论文以及引用

@inproceedings{TEAM2022MM,
  title = {Token Embeddings Alignment for Cross-Modal Retrieval},
  author = {Xie, Chen-Wei and Wu, Jianmin and Zheng, Yun and Pan, Pan and Hua, Xian-Sheng},
  booktitle = {ACMMM},
  year = {2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论