qwen_tensorrt_llm

我要开发同款
匿名用户2024年07月31日
111阅读

技术信息

开源地址
https://modelscope.cn/models/tiansz/qwen_tensorrt_llm

作品详情

qwetesorrtllm

在开始之前,请先确保你的电脑安装了显卡驱动、cuda12.1、cud 和 miicoda。同时有些显卡目前不支持 tesorrt-llm,测试中 T4 和 P100 显卡均不支持 tesorrt-llm

克隆本仓库

git cloe https://www.modelscope.c/tiasz/qwe_tesorrt_llm.git
cd qwe_tesorrt_llm

创建新的 pytho 环境

coda create - trt_llm pytho==3.10.12
coda activate trt_llm

安装依赖

请注意以下命令逐行运行:

pip istall torch==2.1.0 torchvisio==0.16.0 torchaudio==2.1.0 --idex-url https://dowload.pytorch.org/whl/cu121
coda istall -y mpi4py
pip istall tesorrt_llm==0.7.0 --extra-idex-url https://pypi.vidia.com --extra-idex-url https://dowload.pytorch.org/whl/cu121
pip istall pyvml>=11.5.0
pip istall -r requiremets.txt
pip istall --upgrade optimum auto-gptq

安装完依赖后在终端中运行如下代码,校验 tesorrt-llm 是否安装成功:

pytho -c "import tesorrt_llm; prit(tesorrt_llm.__versio__)"

下载 huggigface 模型

git cloe https://www.modelscope.c/qwe/Qwe-1_8B-Chat-It4.git

编译为 tesorrt-llm 模型

? 编译前你还需要根据实际情况修改 default_cofig.py 中的配置
pytho build.py --use_weight_oly --weight_oly_precisio it4_gptq --per_group --use_iflight_batchig --paged_kv_cache --remove_iput_paddig --eable_cotext_fmha

验证模型

pytho ru.py
pytho cli_chat.py

使用 fastapi 部署服务

目前 tritoserver 部署 tesorrt-llm 服务我还未跑通,但我们可以先使用 fastapi 部署服务:

pytho api.py

启动 api 服务后,可以在另一个终端中运行如下命令:

pytho cliet.py
pytho web_demo.py

测试速度

pytho bechmark.py --backed hf  

若以上命令无法运行,可能是 exllama 的问题,你可以在 huggigface 模型的 cofig.jsoquatizatio_cofig 字段中添加: "disable_exllama": true

pytho bechmark.py --backed trt_llm  

参考资料

请注意本教程同样适用于 ubutu 系统

Widows安装TesorRT-LLM,单batch达到8倍加速

功能介绍

qwentensorrtllm 在开始之前,请先确保你的电脑安装了显卡驱动、cuda12.1、cudnn 和 miniconda。同时有些显卡目前不支持 tensorrt-llm,测试中 T4 和 P

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论