OFA图像描述-英文-通用领域-large

我要开发同款
匿名用户2024年07月31日
70阅读
开发技术ofa、pytorch
所属分类ai、图到文、arxiv:2202.03052、ICML2022、M6、OFA、Alibaba、CIDEr
开源地址https://modelscope.cn/models/iic/ofa_image-caption_coco_large_en
授权协议Apache License 2.0

作品详情

News

  • 2023年1月:

  • 优化了finetune流程,支持参数更新、自定义数据及脚本分布式训练等,见finetune示例。

  • 2022年12月:

  • 支持了batch inference,具体见本页快速玩起来demo示例

  • OFA系列发布OFA-MMSpeech,效果超过SOTA,欢迎试用!

  • 2022年11月:

  • 发布ModelScope 1.0版本,以下能力请使用1.0.2及以上版本。

  • 上线6B Caption模型

  • 支持finetune能力,新增OFA Tutorial,finetune能力参考1.4节。

  • 2022年09月: 上线Huge模型,欢迎试用。

OFA-图像描述(英文)

图像描述是什么?

如果你希望为一张图片配上一句文字,或者打个标签,OFA模型就是你的绝佳选择。你只需要输入任意1张你的图片,3秒内就能收获一段精准的描述。本页面右侧提供了在线体验的服务,欢迎使用!

本系列还有如下模型,欢迎试用:

快速玩起来

玩转OFA只需区区以下6行代码,就是如此轻松!如果你觉得还不够方便,请点击右上角Notebook按钮,我们为你提供了配备了GPU的环境,你只需要在notebook里输入提供的代码,就可以把OFA玩起来了!

donuts

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys

img_captioning = pipeline(Tasks.image_captioning, model='damo/ofa_image-caption_coco_large_en', model_revision='v1.0.1')
result = img_captioning('https://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/image-captioning/donuts.jpg')
print(result[OutputKeys.CAPTION][0]) # 'a bunch of donuts on a wooden board with popsicle sticks'
# 目前caption支持了batch inference,方式非常简单,具体如下:
result = img_captioning([{'image': 'https://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/image-captioning/donuts.jpg'} for _ in range(3)], batch_size=2)
for r in result:
    print(r[OutputKeys.CAPTION][0])


OFA是什么?

OFA(One-For-All)是通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态(跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等),详见我们发表于ICML 2022的论文:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework,以及我们的官方Github仓库https://github.com/OFA-Sys/OFA




Github  |  Paper   |  Blog



OFA模型规模:

ModelParams-enParams-zhBackboneHidden sizeIntermediate sizeNum. of headsEnc layersDec layers
OFATiny33M-ResNet502561024444
OFAMedium93M-ResNet1015122048844
OFABase180M160MResNet10176830721266
OFALarge470M440MResNet15210244096161212
OFAHuge930M-ResNet15212805120162412


为什么OFA是图像描述的最佳选择?

OFA在图像描述(image captioning)任务的权威数据集Microsoft COCO Captions官方榜单成功登顶(想看榜单,点这里),并在经典测试集Karpathy test split取得CIDEr 154.9的分数。具体如下:

StageCross Entropy OptimizationCIDEr Optimization
MetricBLEU-4METEORCIDErSPICEBLEU-4METEORCIDErSPICE
OFABase41.030.9138.224.242.831.7146.725.8
OFALarge42.431.5142.224.543.632.2150.726.2
OFAHuge43.931.8145.324.844.932.5154.926.6


模型训练流程

训练数据介绍

本模型训练数据集是coco caption。

训练流程

模型及finetune细节请参考OFA Tutorial 1.4节。

Finetune示例

import tempfile
from modelscope.msdatasets import MsDataset
from modelscope.metainfo import Trainers
from modelscope.trainers import build_trainer
from modelscope.utils.constant import DownloadMode
from modelscope.utils.hub import snapshot_download


train_dataset = MsDataset(
    MsDataset.load(
        "coco_2014_caption", 
        namespace="modelscope", 
        split="train[:100]",
        download_mode=DownloadMode.REUSE_DATASET_IF_EXISTS).remap_columns({
        'image': 'image',
        'caption': 'text'
    }))
test_dataset = MsDataset(
    MsDataset.load(
        "coco_2014_caption", 
        namespace="modelscope", 
        split="validation[:20]",
        download_mode=DownloadMode.REUSE_DATASET_IF_EXISTS).remap_columns({
        'image': 'image',
        'caption': 'text'
    }))


def cfg_modify_fn(cfg):
    cfg.train.hooks = [{
        'type': 'CheckpointHook',
        'interval': 2
    }, {
        'type': 'TextLoggerHook',
        'interval': 1
    }, {
        'type': 'IterTimerHook'
    }]
    cfg.train.dataloader.batch_size_per_gpu = 1
    cfg.train.max_epochs=2
    return cfg


args = dict(
    model='damo/ofa_image-caption_coco_large_en',
    model_revision='v1.0.1',
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    cfg_modify_fn=cfg_modify_fn,
    work_dir = tempfile.TemporaryDirectory().name)
trainer = build_trainer(name=Trainers.ofa, default_args=args)
trainer.train()

模型局限性以及可能的偏差

训练数据集自身有局限,有可能产生一些偏差,请用户自行评测后决定如何使用。

相关论文以及引用

如果你觉得OFA好用,喜欢我们的工作,欢迎引用:

@article{wang2022ofa,
  author    = {Peng Wang and
               An Yang and
               Rui Men and
               Junyang Lin and
               Shuai Bai and
               Zhikang Li and
               Jianxin Ma and
               Chang Zhou and
               Jingren Zhou and
               Hongxia Yang},
  title     = {OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence
               Learning Framework},
  journal   = {CoRR},
  volume    = {abs/2202.03052},
  year      = {2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论