ViDT标识检测模型

我要开发同款
匿名用户2024年07月31日
25阅读
所属分类ai、Swin Transformer、pytorch、cv
开源地址https://modelscope.cn/models/iic/ViDT-logo-detection
授权协议Apache License 2.0

作品详情

ViDT标识检测模型

基于ViDT系列算法训练的标识检测模型,支持对台标、车标、交通、品牌等常见标识的检测。输入一张图片,返回标识所在的位置。 本项目实现的模型为ViDT+,采用的Backbone为Swin-Tiny。

模型描述

ViDT+的模型结构如下所示:

architecture

期望模型使用方式以及适用范围

如何使用

基于 ModelScope 框架,通过调用预定义的 Pipeline 可实现快速调用。

代码范例

from modelscope.pipelines import pipeline

vidt_pipeline = pipeline('image-object-detection',
                         'damo/ViDT-logo-detection')
result = vidt_pipeline('https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/vidt_test1.jpg')
print(f'Output: {result}.')            

训练数据介绍

  • LogoTvstation,台标检测数据集,包含国内常见电视台台标。
  • WebLogo2m,互联网上爬取的常见标识检测数据集。
  • OpenBrandLogo,数据集包含27种不同的品牌标识,详细可见https://tianchi.aliyun.com/dataset/93606。

相关论文以及引用信息

如果该模型对您有所帮助,请引用下面的相关的论文:

@inproceedings{song2022vidt,
  title={ViDT: An Efficient and Effective Fully Transformer-based Object Detector},
  author={Song, Hwanjun and Sun, Deqing and Chun, Sanghyuk and Jampani, Varun and Han, Dongyoon and Heo, Byeongho and Kim, Wonjae and Yang, Ming-Hsuan},
  booktitle={International Conference on Learning Representation},
  year={2022}
}
@article{song2022vidtplus,
  title={An Extendable, Efficient and Effective Transformer-based Object Detector},
  author={Song, Hwanjun and Sun, Deqing and Chun, Sanghyuk and Jampani, Varun and Han, Dongyoon and Heo, Byeongho and Kim, Wonjae and Yang, Ming-Hsuan},
  journal={arXiv preprint arXiv:2204.07962},
  year={2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论