HybridFormer-图像分类模型-通用

我要开发同款
匿名用户2024年07月31日
23阅读
所属分类ai、Transformer、pytorch、ImageNet、HybridFormer、Transformer、Image classification、Alibaba、accuracy、cv
开源地址https://modelscope.cn/models/guoqingbei/cv_hybridformer-base_image-classification_ImageNet-labels
授权协议Apache License 2.0

作品详情

HybridFormer通用图像分类模型介绍

采用ImageNet-1K数据训练,用于识别1000类通用物体。

创空间快速可视化展示: HybridFormer图像分类-通用

模型描述

HybridFormer为CNN与Transformer混合模型,由两个主要构建块组成,即局部Convolution块(LCB)和全局Transformer块(GTB)。HybridFormer集成了改进的多核卷积(MKCA)和跨头自注意力(CHSA)的优点,以平衡冗余和依赖性,实现有效和高效的表示学习。

HybridFormer相关论文

HybridFormer论文

HybridFormer Github

HybridFormer Github

期望模型使用方式以及适用范围

本模型适用范围较广,支持ImageNet 1000类物体识别,也可作为下游任务的预训练backbone

如何使用

在ModelScope框架上,提供输入图片,即可通过简单的Pipeline调用来使用。

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

img_path = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/bird.JPEG'
image_classification = pipeline(Tasks.image_classification,
                                model='damo/cv_hybridformer-base_image-classification_ImageNet-labels')
result = image_classification(img_path)
print(result)

数据评估及结果

模型在ImageNet-1k val上进行测试,结果如下:

Model #Params(M) FLOPs(G) Top-1(%) Reference
LIT-S 27 4.1 81.5 AAAI22
CrossFormer-S 30.7 4.9 82.5 ICLR22
iFormer-S 20 4.8 83.4 NeurIPS22
CETNet-T 23 4.3 82.7 ECCV22
DaViT-Tiny 28.3 4.5 82.8 ECCV22
ScalableViT-S 32 4.2 83.1 ECCV22
MixFormer-B4 35 3.6 83.0 CVPR22
DAT-T 29 4.6 82.0 CVPR22
MViTv2-T 24 4.7 82.3 CVPR22
NAT-T 28 4.3 83.2 CVPR23
UniFormer-S 22 3.6 82.9 TPAMI23
HybridFormer-S (ours) 21.6 4.3 83.4
RegionViT-M 41.2 7.4 83.1 ICLR22
CETNet-S 34 6.8 83.4 ECCV22
MOAT-0 27.8 5.7 83.3 ICLR23
MViTv2-S 35 7.0 83.6 CVPR22
NAT-S 51 7.8 83.7 CVPR23
PaCa-Small 22.0 5.5 83.1 CVPR23
InternImage-T 30 5.0 83.5 CVPR23
HybridFormer-B (ours) 29.9 6.2 83.8
LIT-M 48 8.6 83.0 AAAI22
CrossFormer-B 52.0 9.2 83.4 ICLR22
DaViT-Small 49.7 8.8 84.2 ECCV22
ScalableViT-B 81 8.6 84.1 ECCV22
DAT-S 50 9.0 83.7 CVPR22
MOAT-1 41.6 9.1 84.2 ICLR23
PaCa-Base 46.9 9.5 84.0 CVPR23
InternImage-S 50 8.0 84.2 CVPR23
UniFormer-B 50 8.3 83.9 TPAMI23
HybridFormer-L (ours) 38.3 8.0 84.2
LIT-B 86 15.0 83.4 AAAI22
RegionViT-B 72.7 13.0 83.2 ICLR22
CrossFormer-L 92.0 16.1 84.0 ICLR22
CETNet-B 75 15.1 83.8 ECCV22
DaViT-Base 87.9 15.5 84.6 ECCV22
ScalableViT-L 104 14.7 84.4 ECCV22
MViTv2-B 52 10.2 84.4 CVPR22
DAT-B 88 15.8 84.0 CVPR22
NAT-B 90 13.7 84.3 CVPR23
HybridFormer-H (ours) 55.2 11.6 84.6
该模型当前使用的是默认介绍模版,处于“预发布”阶段,页面仅限所有者可见。
请根据模型贡献文档说明,及时完善模型卡片内容。ModelScope平台将在模型卡片完善后展示。谢谢您的理解。

Clone with HTTP

 git clone https://www.modelscope.cn/guoqingbei/cv_hybridformer-base_image-classification_ImageNet-labels.git
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论