阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。论文:https://arxiv.org/abs/2304.14178DEMO:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl示例亮点特色一种面向多模态语言模型的模块化的训练范式。能学习与语言空间相适应的视觉知识,并支持在多模态场景下进行多轮对话。涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。提出了针对视觉相关指令的测评集OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。我们在模块化上的一些探索:E2E-VLP, mPLUG 和 mPLUG-2,分别被ACL2021,EMNLP2022andICML2023接收。mPLUG 首次在VQA上超越人类。即将发布在HuggingFaceHub上发布。多语言支持(中文、日文等)。在多图片/视频数据上训练的模型Huggingface在线Demo(done)指令微调代码(done)视觉相关指令的测评集OwlEval(done)预训练参数ModelPhaseDownloadlinkmPLUG-Owl7BPre-training下载链接mPLUG-Owl7BInstructiontuning下载链接TokenizermodelN/A下载链接声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论