TRLLM-Model量化-4bit量化
离线转化为turbomind格式
lmdeploy convert internlm2-chat-7b ./TRLLM-Model --dst-path ./workspace_trllm_turbomind
修改配置参数:
cache_max_entry_count = 0.2 (config.ini)
启动:
lmdeploy chat turbomind ./workspace_trllm2_turbomind
将HF格式的模型进行4bit量化,直接转为HF格式的4bit模型
将HF格式的模型进行4bit量化,直接转为HF格式的4bit模型
lmdeploy lite auto_awq ./TRLLM-Model --w-bits 4 --w-group-size 128 --work-dir ./trll-model-4bit
将量化后的HF格式的4bit模型转为 turbomind格式
lmdeploy convert internlm2-chat-7b ./trll2-model-4bit --dst-path ./workspace_trll2_model_4bit_turbomind --model-format awq --group-size 128
启动4bit模型
修改配置参数:
cache_max_entry_count = 0.1
启动:
lmdeploy chat turbomind ./workspace_trll2_model_4bit_turbomind
评论