MTTR视频目标分割模型介绍

本模型使用RoBERTa-base和video swin transformer分别来提取输入的文本特征和视频特征，并给出视频中由此文本指定的物体mask。

本模型的生成效果如下所示，输入的指导文本为：

'guy in black performing tricks on a bike' ——— 使用蓝色mask
'a black bike used to perform tricks' ——— 使用红色mask

模型描述

本模型采用端到端的训练方式，具体的模型如下图所示。首先，输入的文本和视频帧通过特征编码器，并且每一帧会形成一个多模态序列。接下来，多模态 Transformer 对特征关系进行编码，并将实例级特征解码为一组预测序列，然后生成相应的掩码和预测的序列。最后，在训练阶段，预测序列会与标签序列进行匹配以训练网络；在推理阶段，预测序列会用于生成最终的预测结果。

期望模型使用方式以及适用范围

使用方式：

直接推理，在任意的的视频上进行推理。

适用范围：

本模型主要应用于视频目标分割领域，推理阶段输入视频的长度须小于等于10秒，输入文本的个数须小于等于2个。

如何使用

在ModelScope框架上，提供输入视频、指导文本，即可以通过简单的Pipeline调用来使用本模型。注意，本模型当前支持Pillow版本不高于9.5.0。

如您期望结果进行可视化，可以将下载下来的configuration.json文件中pipeline下面的save_masked_video设为true并配置好output_path路径。

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys

input_location = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/videos/referring_video_object_segmentation_test_video.mp4'
text_queries = [
    'guy in black performing tricks on a bike',
    'a black bike used to perform tricks'
]

input_tuple = (input_location, text_queries)
pp = pipeline(Tasks.referring_video_object_segmentation, model='damo/cv_swin-t_referring_video-object-segmentation')
result = pp(input_tuple)
print(result)

模型局限性和可能的偏差

由于目前提供的模型只在Refer-YouTube-VOS数据集上进行了预训练，因此，超出此数据集domain覆盖的视频或者指导文本可能会影响推理时的分割结果。

训练数据介绍

训练数据为Refer-YouTube-VOS公开数据集和A2D_Sentences公开数据集。

模型的训练流程

模型微调和评估流程及代码可见文档【模型微调示例】小节。

模型推理流程

预处理

将输入视频按照输入的起始时间进行裁剪
调整视频的分辨率为360*640
对视频图像进行归一化

推理

将视频帧按照一定的长度进行聚合，形成若干个互相重叠的序列
将每个视频帧序列与输入的每个指导文本进行结合
使用模型对每一个序列进行结果预测
生成每个指导文本对应的每一帧的mask结果

数据评估及结果

DataSet	mAP	J&F
AD-Sentences	46.1	-
JHMDB-Sentences	39.2	-
Refer-YouTube-VOS	-	55.32

MTTR文本指导的视频目标分割-英文

作品详情