Exllama是对Llama的HF转换器实现进行更高效的内存重写,以用于量化权重。
设计用于量化权重快速且节省内存的推理(不仅仅是注意力)跨多个设备映射内置(多)LoRA支持funky采样函数的配套库注意,该项目处于概念验证&预览阶段,可能发生大型变更。
硬件/软件要求作者在RTX4090和RTX3070-Ti上进行开发。两种卡都支持CUDA内核,但可能与旧卡不兼容。作者没有更低的显卡,所以不知道老显卡行不行。另外,不知道这是否适用于Windows/WSL。依赖关系此列表可能不完整:torch使用cu118在2.1.0(nightly)上进行测试,也可能适用于较旧的CUDA版本safetensors0.3.1sentencepieceninja限制截至目前(正在处理):不支持没有groupsize的v1模型遇到过具有非标准布局和数据类型的模型(例如float32嵌入表)。确保支持所有可能的排列需要一段时间。
评论