在开始之前,请先确保你的电脑安装了显卡驱动、cuda12.1、cud 和 miicoda。同时有些显卡目前不支持 tesorrt-llm,测试中 T4 和 P100 显卡均不支持 tesorrt-llm 请注意以下命令逐行运行: 安装完依赖后在终端中运行如下代码,校验 tesorrt-llm 是否安装成功: 目前 tritoserver 部署 tesorrt-llm 服务我还未跑通,但我们可以先使用 fastapi 部署服务: 启动 api 服务后,可以在另一个终端中运行如下命令: 若以上命令无法运行,可能是 exllama 的问题,你可以在 huggigface 模型的 请注意本教程同样适用于 ubutu 系统qwetesorrtllm
克隆本仓库
git cloe https://www.modelscope.c/tiasz/qwe_tesorrt_llm.git
cd qwe_tesorrt_llm
创建新的 pytho 环境
coda create - trt_llm pytho==3.10.12
coda activate trt_llm
安装依赖
pip istall torch==2.1.0 torchvisio==0.16.0 torchaudio==2.1.0 --idex-url https://dowload.pytorch.org/whl/cu121
coda istall -y mpi4py
pip istall tesorrt_llm==0.7.0 --extra-idex-url https://pypi.vidia.com --extra-idex-url https://dowload.pytorch.org/whl/cu121
pip istall pyvml>=11.5.0
pip istall -r requiremets.txt
pip istall --upgrade optimum auto-gptq
pytho -c "import tesorrt_llm; prit(tesorrt_llm.__versio__)"
下载 huggigface 模型
git cloe https://www.modelscope.c/qwe/Qwe-1_8B-Chat-It4.git
编译为 tesorrt-llm 模型
pytho build.py --use_weight_oly --weight_oly_precisio it4_gptq --per_group --use_iflight_batchig --paged_kv_cache --remove_iput_paddig --eable_cotext_fmha
验证模型
pytho ru.py
pytho cli_chat.py
使用 fastapi 部署服务
pytho api.py
pytho cliet.py
pytho web_demo.py
测试速度
pytho bechmark.py --backed hf
cofig.jso
的 quatizatio_cofig
字段中添加: "disable_exllama": truepytho bechmark.py --backed trt_llm
参考资料
点击空白处退出提示
评论