Vicuna 达到 ChatGPT/Bard 90% 水平的聊天机器人开源项目

我要开发同款
匿名用户2023年03月31日
72阅读
开发技术PythonHTML/CSS
所属分类LLM(大语言模型)、人工智能
授权协议Apache-2.0

作品详情

Vicuna是一个开源的聊天机器人,通过使用从ShareGPT.com使用公共API收集的大约70K用户共享对话微调LLaMA基础模型创建的。

在线演示

为了确保数据质量,开发团队将HTML转换回markdown并过滤掉一些不合适或低质量的样本。以及将冗长的对话分成更小的部分,以适应模型的最大上下文长度。其训练方法建立在 StanfordAlpaca 的基础上,并进行了以下改进:

内存优化:为了使Vicuna能够理解长上下文,开发团队将最大上下文长度从Alpaca中的512扩展到2048,大大增加了GPU内存需求。通过利用utilizinggradientcheckpointing 和 flashattention 来解决内存压力。

多轮对话:调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。通过Spot实例降低成本:40倍大的数据集和4倍的训练序列长度对训练费用提出了相当大的挑战。Vicuna团队使用 SkyPilot managedspot 来降低成本,方法是利用更便宜的spot实例以及自动恢复抢占和自动区域切换。该解决方案将7B模型的训练成本从500美元削减至140美元左右,将13B模型的训练成本从1000美元左右削减至300美元。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论