OFA图像语义蕴含-英文-通用领域-large

我要开发同款
匿名用户2024年07月31日
35阅读
所属分类ai、ofa、pytorch、arxiv:2202.03052、ICML2022、M6、OFA、Alibaba、accuracy、multi-modal
开源地址https://modelscope.cn/models/iic/ofa_visual-entailment_snli-ve_large_en
授权协议Apache License 2.0

作品详情

OFA-图文蕴含 (英文)

图文蕴含是什么?

图文蕴含即根据给定的图片和文本判断其语义关系,从“entailment”、“contradiction”和“neutrality”三种关系中选出。

本系列还有如下模型,欢迎试用:

快速玩起来

玩转OFA只需区区以下数行代码,就是如此轻松!如果你觉得还不够方便,请点击右上角Notebook按钮,我们为你提供了配备了GPU的环境,你只需要在notebook里输入提供的代码,就可以把OFA玩起来了!

dogs

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.outputs import OutputKeys
ofa_pipe = pipeline(Tasks.visual_entailment, model='damo/ofa_visual-entailment_snli-ve_large_en')
image = 'https://xingchen-data.oss-cn-zhangjiakou.aliyuncs.com/maas/visual-entailment/visual_entailment.jpg'
text = 'there are two birds.'
input = {'image': image, 'text': text}
result = ofa_pipe(input)
print(result[OutputKeys.LABELS]) # no


OFA是什么?

OFA(One-For-All)是通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态(跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等),详见我们发表于ICML 2022的论文:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework以及我们的官方Github仓库https://github.com/OFA-Sys/OFA




Github  |  Paper   |  Blog



OFA模型规模:

ModelParams-enParams-zhBackboneHidden sizeIntermediate sizeNum. of headsEnc layersDec layers
OFATiny33M-ResNet502561024444
OFAMedium93M-ResNet1015122048844
OFABase180M160MResNet10176830721266
OFALarge470M440MResNet15210244096161212
OFAHuge930M-ResNet15212805120162412


为什么OFA是图文蕴含的最佳选择?

OFA在图文蕴含的数据集SNLI-VE上取得最优表现,具体结果如下:

TaskSNLI-VE
Splittest-devtest-std
OFABase89.389.2
OFALarge90.390.2
OFAHuge91.091.2



模型训练流程

训练数据介绍

本模型训练数据集是snli-ve数据集。

训练流程

finetune能力请参考OFA Tutorial 1.4节。

模型局限性以及可能的偏差

训练数据集自身有局限,有可能产生一些偏差,请用户自行评测后决定如何使用。

相关论文以及引用信息

如果你觉得OFA好用,喜欢我们的工作,欢迎引用: ``` @article{wang2022ofa, author = {Peng Wang and An Yang and Rui Men and Junyang Lin and Shuai Bai and Zhikang Li and Jianxin Ma and Chang Zhou and Jingren Zhou and Hongxia Yang}, title = {OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework}, journal = {CoRR}, volume = {abs/2202.03052}, year = {2022} }

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论