视频插帧

我要开发同款
匿名用户2024年07月31日
58阅读
所属分类aipytorch
开源地址https://modelscope.cn/models/aojie1997/cv_raft_video-frame-interpolation

作品详情

---

视频插帧介绍

给定一段低帧率视频或连续4帧图片,模型会返回高帧率视频(默认为输入帧率两倍)或中间帧图像。

模型描述

全链路插帧模型包含光流计算模块和中间帧生成模块。其中光流计算模型复用了RAFT,详见:,中间帧生成模型包含了光流refine、backward warping以及中间帧融合模块。该模型适用于各类低帧率视频增强,用于提升视频的流畅度,消除卡顿现象。

模型效果如下:

期望模型使用方式以及适用范围

本模型主要用于视频帧率转换,提升视频流畅度。用户可以自行尝试不同类型和不同分辨率视频的模型效果。具体调用方式请参考代码示例。

如何使用

在ModelScope框架下,提供连续4帧输入图像,通过调用简单的Pipeline即可使用当前模型。具体代码示例如下:

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

img_captioning = pipeline(
            Tasks.image_captioning,
            model='damo/ofa_image-caption_coco_large_en')
result = img_captioning('data/test/images/image_captioning.png')
print(result['caption'])

模型局限性以及可能的偏差

该模型在vimeo_septuplet数据集上训练,不同的训练数据增强方法以及光流gt会对模型训练结果产生影响,请用户自行评测后决定如何使用。

训练数据介绍

vimeo_septuplet: 经典的视频插帧数据集,训练集包含64612组图片,验证集包含7824组图片,每组图片包含连续7帧448x256图像, 具体数据可以下载

模型训练流程

预处理

主要预处理流程如下:

  1. 图像随机crop成256x256的patch
  2. 按一定比例对图像进行通道数变换、水平和竖直翻转、时序交换
  3. 训练过程以batch为单位按4:3:3的比例对原图进行1x、1.5x、2x上采样

训练

训练时以im1、im3、im5、im7作为输入,im4作为图像gt,光流gt由RAFT模型生成(用户也可自行选择由其它baseline模型生成)。冻结RAFT模型参数,训练光流refine和中间帧生成网络。

数据评估及结果

在MSCOCO上取得SOTA,登顶MSCOCO Leaderboard第一。

相关论文以及引用信息

该模型借鉴了以下论文的思路或代码:

@article{wang2022ofa,
  author    = {Peng Wang and
               An Yang and
               Rui Men and
               Junyang Lin and
               Shuai Bai and
               Zhikang Li and
               Jianxin Ma and
               Chang Zhou and
               Jingren Zhou and
               Hongxia Yang},
  title     = {OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence
               Learning Framework},
  journal   = {CoRR},
  volume    = {abs/2202.03052},
  year      = {2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论