Exllama Llama HF 转换器重写开源项目

我要开发同款
匿名用户2023年05月26日
122阅读
开发技术Python
所属分类LLM(大语言模型)、人工智能
授权协议MIT

作品详情

Exllama是对Llama的HF转换器实现进行更高效的内存重写,以用于量化权重。

设计用于量化权重快速且节省内存的推理(不仅仅是注意力)跨多个设备映射内置(多)LoRA支持funky采样函数的配套库

注意,该项目处于概念验证&预览阶段,可能发生大型变更。

硬件/软件要求作者在RTX4090和RTX3070-Ti上进行开发。两种卡都支持CUDA内核,但可能与旧卡不兼容。

作者没有更低的显卡,所以不知道老显卡行不行。

另外,不知道这是否适用于Windows/WSL。

依赖关系此列表可能不完整:

torch使用cu118在2.1.0(nightly)上进行测试,也可能适用于较旧的CUDA版本safetensors0.3.1sentencepieceninja限制截至目前(正在处理):

不支持没有groupsize的v1模型遇到过具有非标准布局和数据类型的模型(例如float32嵌入表)。确保支持所有可能的排列需要一段时间。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论