视频实例分割-VideoKNet-SwinB

我要开发同款
匿名用户2024年07月31日
33阅读
所属分类ai、swinb-video-instance、pytorch、Video-K-Net、video instance segme、PQ、cv
开源地址https://modelscope.cn/models/iic/cv_swinb_video-instance-segmentation
授权协议Apache License 2.0

作品详情

视频实例分割

给定一个输入视频,输出视频每一帧的实例分割掩膜,类别,分数(虚拟分数),矩形框和跟踪的id。

实例分割是要分割出图像中的things。things是指可数的物体,例如人,车,猫等。

视频实例分割 视频实例分割 视频实例分割

模型描述

模型结构

如上图所示,模型包含backbone,neck和 KernelUpdateHeads三个部分。

期望模型使用方式与适用范围

本模型适用范围较广,能对图片中包含的大部分感兴趣物体(YouTube DataSet 40类)进行分割。

如何使用

在ModelScope框架上,提供输入视频,即可通过简单的Pipeline调用来使用。

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

model_id = 'damo/cv_swinb_video-instance-segmentation'
input_url = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/videos/kitti-step_testing_image_02_0000.mp4'
seg_pipeline = pipeline(Tasks.video_instance_segmentation, model=model_id)
result = seg_pipeline(input_url)

模型局限性以及可能的偏差

  • 当前模型在YouTube-VIS DataSet数据训练,其他差异较大的场景可能出现精度下降
  • 部分非常规图片或感兴趣物体占比太小或遮挡严重可能会影响分割结果
  • 当前版本在python 3.7环境测试通过,其他环境下可用性待测试

训练数据介绍

  • YouTube-VIS DataSet : Youtube-vis 是一个实例分割数据集. 它包含2883高分辨率的YouTube视频, 每个像素的标注类别包含40类常见物体例如人、动物、汽车等, 数据集包含4883个视频片段、131k个高质量的人工标注. YouTube-VIS dataset is split into 2,238 training videos, 302 validation videos and 343 test videos.

预处理

测试时主要的预处理如下:

  • Normalize:图像归一化,减均值除以标准差
  • Pad:图像高宽补零至32的倍数

数据评估及结果

Backbone Pretrain AP AR_10
swinb (deformable fpn) ImageNet-21K 54.1 59.9

引用

@inproceedings{li2022video,
  title={Video k-net: A simple, strong, and unified baseline for video segmentation},
  author={Li, Xiangtai and Zhang, Wenwei and Pang, Jiangmiao and Chen, Kai and Cheng, Guangliang and Tong, Yunhai and Loy, Chen Change},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={18847--18857},
  year={2022}
}

Clone with HTTP

 git clone https://www.modelscope.cn/damo/cv_swinb_video-instance-segmentation.git
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论