QLoRA 量化 LLM 的高效微调开源项目

我要开发同款
匿名用户2023年05月26日
62阅读
开发技术Python
所属分类LLM(大语言模型)、人工智能
授权协议MIT

作品详情

QLoRA是华盛顿大学提出的一种有效的微调方法,可以减少内存使用量,足以在单个48GBGPU上微调65B参数模型,同时保留完整的16位微调任务性能。QLoRA通过冻结的4位量化预训练语言模型将梯度反向传播到低阶适配器(LoRA)。

项目团队同时还发布了一个命名为Guanaco(原驼)的大语言模型,在Vicuna基准测试中优于所有以前公开发布的模型,达到ChatGPT性能水平的99.3%,同时只需要在单个GPU上进行24小时的微调。

QLoRA引入了许多创新来节省内存而不牺牲性能:

(a)4位NormalFloat(NF4),一种新的数据类型,理论上是正态分布权重的最佳信息(b)双量化,通过量化量化常数来减少平均内存占用,以及(c)分页优化器来管理内存峰值。使用QLoRA对1,000多个模型进行微调,提供跨8个指令数据集、多种模型类型(LLaMA、T5)和无法通过常规微调运行的模型规模(例如33B和65B参数模型)。

结果表明,即使使用比以前的SoTA更小的模型,QLoRA在小型高质量数据集上进行微调也会产生最先进的结果。项目团队提供了基于人类和GPT-4评估的聊天机器人性能的详细分析,表明GPT-4评估是人类评估的廉价且合理的替代方案。此外,还发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。

所有模型和代码已发布,包括用于4位训练的CUDA内核。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论