开源地址
https://modelscope.cn/models/tiansz/qwen_tensorrt_llm

qwetesorrtllm

在开始之前，请先确保你的电脑安装了显卡驱动、cuda12.1、cud 和 miicoda。同时有些显卡目前不支持 tesorrt-llm，测试中 T4 和 P100 显卡均不支持 tesorrt-llm

克隆本仓库

git cloe https://www.modelscope.c/tiasz/qwe_tesorrt_llm.git

cd qwe_tesorrt_llm

创建新的 pytho 环境

coda create - trt_llm pytho==3.10.12

coda activate trt_llm

安装依赖

请注意以下命令逐行运行：

pip istall torch==2.1.0 torchvisio==0.16.0 torchaudio==2.1.0 --idex-url https://dowload.pytorch.org/whl/cu121
coda istall -y mpi4py
pip istall tesorrt_llm==0.7.0 --extra-idex-url https://pypi.vidia.com --extra-idex-url https://dowload.pytorch.org/whl/cu121
pip istall pyvml>=11.5.0
pip istall -r requiremets.txt
pip istall --upgrade optimum auto-gptq

安装完依赖后在终端中运行如下代码，校验 tesorrt-llm 是否安装成功：

pytho -c "import tesorrt_llm; prit(tesorrt_llm.__versio__)"

下载 huggigface 模型

git cloe https://www.modelscope.c/qwe/Qwe-1_8B-Chat-It4.git

编译为 tesorrt-llm 模型

? 编译前你还需要根据实际情况修改 default_cofig.py 中的配置

pytho build.py --use_weight_oly --weight_oly_precisio it4_gptq --per_group --use_iflight_batchig --paged_kv_cache --remove_iput_paddig --eable_cotext_fmha

验证模型

pytho ru.py

pytho cli_chat.py

使用 fastapi 部署服务

目前 tritoserver 部署 tesorrt-llm 服务我还未跑通，但我们可以先使用 fastapi 部署服务：

pytho api.py

启动 api 服务后，可以在另一个终端中运行如下命令：

pytho cliet.py

pytho web_demo.py

测试速度

pytho bechmark.py --backed hf

若以上命令无法运行，可能是 exllama 的问题，你可以在 huggigface 模型的 cofig.jso 的 quatizatio_cofig 字段中添加： "disable_exllama": true

pytho bechmark.py --backed trt_llm

参考资料

请注意本教程同样适用于 ubutu 系统

Widows安装TesorRT-LLM，单batch达到8倍加速

qwentensorrtllm 在开始之前，请先确保你的电脑安装了显卡驱动、cuda12.1、cudnn 和 miniconda。同时有些显卡目前不支持 tensorrt-llm，测试中 T4 和 P

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

qwen_tensorrt_llm

技术信息

作品详情