Exllama Llama HF 转换器重写开源项目

匿名用户2023年05月26日

122阅读

开发技术Python

所属分类LLM（大语言模型）、人工智能

授权协议MIT

作品详情

Exllama是对Llama的HF转换器实现进行更高效的内存重写，以用于量化权重。

设计用于量化权重快速且节省内存的推理（不仅仅是注意力）跨多个设备映射内置（多）LoRA支持funky采样函数的配套库

注意，该项目处于概念验证&预览阶段，可能发生大型变更。

硬件/软件要求作者在RTX4090和RTX3070-Ti上进行开发。两种卡都支持CUDA内核，但可能与旧卡不兼容。

作者没有更低的显卡，所以不知道老显卡行不行。

另外，不知道这是否适用于Windows/WSL。

依赖关系此列表可能不完整：

torch使用cu118在2.1.0（nightly）上进行测试，也可能适用于较旧的CUDA版本safetensors0.3.1sentencepieceninja限制截至目前（正在处理）：

不支持没有groupsize的v1模型遇到过具有非标准布局和数据类型的模型（例如float32嵌入表）。确保支持所有可能的排列需要一段时间。

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

使用微信扫一扫