开源地址
https://modelscope.cn/models/iic/multi_modal_clip_vtretrieval_prost授权协议
Apache License 2.0

视频-文本检索模型介绍

ProST模型是渐进式的时空原型匹配模型，发表于ICCV 2023 Progressive Spatio-Temporal Prototype Matchig for Text-Video Retrieval。

输入任意视频和文本pair，输出相应的视频-文本pair特征，和相应得分。

数据集说明

该模型采用预训练CLIP模型，然后在msrvtt数据集进行fietue。

模型结构

CLIP模型：视觉ecoder采用vit-base-patch16结构，文本ecoder采用bert-base结构。

Iteractio: 采用Progressive Spatio-Temporal Prototype Matchig。如上图所示。

模型训练

fietue LR scheduler

初始LR为 0.0001，共训练5个epoch。

使用方式和范围

使用方式：

直接推理，对输入的视频-文本pair直接进行推理。使用场景:
适合任意视频-文本pair，一般文本长度最长编码不超过77，视频时间15s-5mi。

结果说明

MSRVTT test，R@1:49%，若采用补充材料中提到的bipartite maximum matchig后处理方法，可达到R@1:56%，达到sota结果。

代码范例:

from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

text_video_retrieval= pipelie(
            Tasks.text_video_retrieval,
            model='damo/multi_modal_clip_vtretrieval_prost')
video_path = 'your video path.mp4'
captio = ('your text captio', Noe, Noe)
_iput = {'video': video_path, 'text': captio}
result = text_video_retrieval(_iput)

相关论文以及引用信息

如果该模型对您有所帮助，请引用下面的相关的论文：

@iproceedigs{ProST,
  title     = {Progressive Spatio-Temporal Prototype Matchig for Text-Video Retrieval},
  author    = {Padeg Li ad Che-Wei Xie ad Limig Zhao ad Hogtao Xie ad Jiaa Ge ad Yu Zheg ad Deli Zhao ad Yogdog Zhag},
  joural   = {ICCV 2023},
  year      = {2023}
}

视频-文本检索模型介绍 ProST模型是渐进式的时空原型匹配模型，发表于ICCV 2023 Progressive Spatio-Temporal Prototype Matching for Tex

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

ProST: 视频文本通用检索模型

技术信息

作品详情