fastllm是纯C++实现的全平台llm加速库。支持Python调用,chatglm-6B级模型单卡可达10000+token/s,支持glm、llama、moss基座,手机端流畅运行。功能概述纯C++实现,便于跨平台移植,可以在安卓上直接编译ARM平台支持NEON指令集加速,X86平台支持AVX指令集加速,NVIDIA平台支持CUDA加速,各个平台速度都很快就是了支持浮点模型(FP32),半精度模型(FP16),量化模型(INT8,INT4)加速支持Batch速度优化支持流式输出,很方便实现打字机效果支持并发计算时动态拼Batch支持python调用前后端分离设计,便于支持新的计算设备目前支持ChatGLM模型,各种LLAMA模型(ALPACA,VICUNA等),BAICHUAN模型,MOSS模型推理速度6B级int4模型单4090延迟最低约5.5ms6B级fp16模型单4090最大吞吐量超过10000token/s6B级int4模型在骁龙865上速度大约为4~5token/s详细测试数据点这里声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论