HybridFormer通用图像分类模型介绍
采用ImageNet-1K数据训练,用于识别1000类通用物体。
创空间快速可视化展示: HybridFormer图像分类-通用
模型描述
HybridFormer为CNN与Transformer混合模型,由两个主要构建块组成,即局部Convolution块(LCB)和全局Transformer块(GTB)。HybridFormer集成了改进的多核卷积(MKCA)和跨头自注意力(CHSA)的优点,以平衡冗余和依赖性,实现有效和高效的表示学习。
HybridFormer相关论文
HybridFormer Github
期望模型使用方式以及适用范围
本模型适用范围较广,支持ImageNet 1000类物体识别,也可作为下游任务的预训练backbone
如何使用
在ModelScope框架上,提供输入图片,即可通过简单的Pipeline调用来使用。
代码范例
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
img_path = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/bird.JPEG'
image_classification = pipeline(Tasks.image_classification,
model='damo/cv_hybridformer-base_image-classification_ImageNet-labels')
result = image_classification(img_path)
print(result)
数据评估及结果
模型在ImageNet-1k val上进行测试,结果如下:
Model | #Params(M) | FLOPs(G) | Top-1(%) | Reference |
---|---|---|---|---|
LIT-S | 27 | 4.1 | 81.5 | AAAI22 |
CrossFormer-S | 30.7 | 4.9 | 82.5 | ICLR22 |
iFormer-S | 20 | 4.8 | 83.4 | NeurIPS22 |
CETNet-T | 23 | 4.3 | 82.7 | ECCV22 |
DaViT-Tiny | 28.3 | 4.5 | 82.8 | ECCV22 |
ScalableViT-S | 32 | 4.2 | 83.1 | ECCV22 |
MixFormer-B4 | 35 | 3.6 | 83.0 | CVPR22 |
DAT-T | 29 | 4.6 | 82.0 | CVPR22 |
MViTv2-T | 24 | 4.7 | 82.3 | CVPR22 |
NAT-T | 28 | 4.3 | 83.2 | CVPR23 |
UniFormer-S | 22 | 3.6 | 82.9 | TPAMI23 |
HybridFormer-S (ours) | 21.6 | 4.3 | 83.4 | |
RegionViT-M | 41.2 | 7.4 | 83.1 | ICLR22 |
CETNet-S | 34 | 6.8 | 83.4 | ECCV22 |
MOAT-0 | 27.8 | 5.7 | 83.3 | ICLR23 |
MViTv2-S | 35 | 7.0 | 83.6 | CVPR22 |
NAT-S | 51 | 7.8 | 83.7 | CVPR23 |
PaCa-Small | 22.0 | 5.5 | 83.1 | CVPR23 |
InternImage-T | 30 | 5.0 | 83.5 | CVPR23 |
HybridFormer-B (ours) | 29.9 | 6.2 | 83.8 | |
LIT-M | 48 | 8.6 | 83.0 | AAAI22 |
CrossFormer-B | 52.0 | 9.2 | 83.4 | ICLR22 |
DaViT-Small | 49.7 | 8.8 | 84.2 | ECCV22 |
ScalableViT-B | 81 | 8.6 | 84.1 | ECCV22 |
DAT-S | 50 | 9.0 | 83.7 | CVPR22 |
MOAT-1 | 41.6 | 9.1 | 84.2 | ICLR23 |
PaCa-Base | 46.9 | 9.5 | 84.0 | CVPR23 |
InternImage-S | 50 | 8.0 | 84.2 | CVPR23 |
UniFormer-B | 50 | 8.3 | 83.9 | TPAMI23 |
HybridFormer-L (ours) | 38.3 | 8.0 | 84.2 | |
LIT-B | 86 | 15.0 | 83.4 | AAAI22 |
RegionViT-B | 72.7 | 13.0 | 83.2 | ICLR22 |
CrossFormer-L | 92.0 | 16.1 | 84.0 | ICLR22 |
CETNet-B | 75 | 15.1 | 83.8 | ECCV22 |
DaViT-Base | 87.9 | 15.5 | 84.6 | ECCV22 |
ScalableViT-L | 104 | 14.7 | 84.4 | ECCV22 |
MViTv2-B | 52 | 10.2 | 84.4 | CVPR22 |
DAT-B | 88 | 15.8 | 84.0 | CVPR22 |
NAT-B | 90 | 13.7 | 84.3 | CVPR23 |
HybridFormer-H (ours) | 55.2 | 11.6 | 84.6 |
该模型当前使用的是默认介绍模版,处于“预发布”阶段,页面仅限所有者可见。
请根据模型贡献文档说明,及时完善模型卡片内容。ModelScope平台将在模型卡片完善后展示。谢谢您的理解。
Clone with HTTP
git clone https://www.modelscope.cn/guoqingbei/cv_hybridformer-base_image-classification_ImageNet-labels.git
评论