ProST模型是渐进式的时空原型匹配模型,发表于ICCV 2023 Progressive Spatio-Temporal Prototype Matchig for Text-Video Retrieval。 输入任意视频和文本pair,输出相应的视频-文本pair特征,和相应得分。 该模型采用预训练CLIP模型,然后在msrvtt数据集进行fietue。 CLIP模型:视觉ecoder采用vit-base-patch16结构,文本ecoder采用bert-base结构。 Iteractio: 采用Progressive Spatio-Temporal Prototype Matchig。如上图所示。 初始LR为 0.0001,共训练5个epoch。 使用方式: MSRVTT test,R@1:49%,若采用补充材料中提到的bipartite maximum matchig后处理方法,可达到R@1:56%, 达到sota结果。 如果该模型对您有所帮助,请引用下面的相关的论文:视频-文本检索模型介绍
数据集说明
模型结构
模型训练
fietue LR scheduler
使用方式和范围
结果说明
代码范例:
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks
text_video_retrieval= pipelie(
Tasks.text_video_retrieval,
model='damo/multi_modal_clip_vtretrieval_prost')
video_path = 'your video path.mp4'
captio = ('your text captio', Noe, Noe)
_iput = {'video': video_path, 'text': captio}
result = text_video_retrieval(_iput)
相关论文以及引用信息
@iproceedigs{ProST,
title = {Progressive Spatio-Temporal Prototype Matchig for Text-Video Retrieval},
author = {Padeg Li ad Che-Wei Xie ad Limig Zhao ad Hogtao Xie ad Jiaa Ge ad Yu Zheg ad Deli Zhao ad Yogdog Zhag},
joural = {ICCV 2023},
year = {2023}
}
点击空白处退出提示
评论