chatglm3-6B-32k-int4
描述
本仓库仅作为个人学习使用,模型是使用chatglm.cpp进行q4_0量化的,github地址:https://github.com/li-plus/chatglm.cpp
量化后的模型大小大约3.3GB,适合内存不足的玩家。
使用hf的内存测量预估占用1.45GB,实测自己的笔记本运行时占用大概3个GB
hf的内存测量地址:https://huggingface.co/spaces/hf-accelerate/model-memory-usage
本模型下载
git clone https://www.modelscope.cn/MaxLeton13/chatglm3-6B-32k-int4.git
量化过程
如果不使用Jupyter,而是使用命令行,注意把下面命令中的感叹号去掉
下载chatglm.cpp量化库
!git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
下载依赖
!python3 -m pip install -U pip
!python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece
下载智谱AI开源模型chatglm3-6B-32k
!git lfs install
!git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b-32k.git
使用chatglm_cpp的量化脚本convert.py,量化后的模型放在新建的文件夹chatglm.cpp/build 下
!mkdir chatglm.cpp/build
!python3 chatglm.cpp/chatglm_cpp/convert.py -i chatglm3-6b-32k -t q4_0 -o chatglm.cpp/build/chatglm3-6B-32-ggml.bin
下载Cmake
!pip install cmake
使用Cmake编译模型
!cmake -S chatglm.cpp -B chatglm.cpp/build
!cmake --build chatglm.cpp/build -j --config Release
调试运行,其他方法请查看chatglm.cpp的github仓库
!./chatglm.cpp/build/bin/main -m chatglm.cpp/build/chatglm3-6B-32-ggml.bin -p 你能帮我写一篇不少于一千字的科幻小说吗 --top_p 0.8 --temp 0.8
作者说
本人是初学者,这个模型也是作为自己学习使用的。本身没有什么技术含量,README写的也比较简单粗糙,如果你不喜欢请见谅。
评论