mPLUG-Owl 多模态大语言模型_开源项目-程序员客栈

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。

论文：https://arxiv.org/abs/2304.14178DEMO：https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

示例

亮点特色一种面向多模态语言模型的模块化的训练范式。能学习与语言空间相适应的视觉知识，并支持在多模态场景下进行多轮对话。涌现多图关系理解，场景文本理解和基于视觉的文档理解等能力。提出了针对视觉相关指令的测评集OwlEval，用以评估多模态语言模型的对带有视觉信息上下文的理解能力。我们在模块化上的一些探索:E2E-VLP, mPLUG 和 mPLUG-2,分别被ACL2021,EMNLP2022andICML2023接收。mPLUG 首次在VQA上超越人类。即将发布在HuggingFaceHub上发布。多语言支持（中文、日文等）。在多图片/视频数据上训练的模型Huggingface在线Demo（done）指令微调代码（done）视觉相关指令的测评集OwlEval（done）预训练参数ModelPhaseDownloadlinkmPLUG-Owl7BPre-training下载链接mPLUG-Owl7BInstructiontuning下载链接TokenizermodelN/A下载链接

mPLUG-Owl 多模态大语言模型开源项目

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐