chatglm3-6B-32k-int4

描述

本仓库仅作为个人学习使用，模型是使用chatglm.cpp进行q4_0量化的，github地址：https://github.com/li-plus/chatglm.cpp
量化后的模型大小大约3.3GB，适合内存不足的玩家。
使用hf的内存测量预估占用1.45GB，实测自己的笔记本运行时占用大概3个GB
hf的内存测量地址：https://huggingface.co/spaces/hf-accelerate/model-memory-usage

本模型下载

 git clone https://www.modelscope.cn/MaxLeton13/chatglm3-6B-32k-int4.git

量化过程

如果不使用Jupyter，而是使用命令行，注意把下面命令中的感叹号去掉

下载chatglm.cpp量化库

!git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp

下载依赖

!python3 -m pip install -U pip
!python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece

下载智谱AI开源模型chatglm3-6B-32k

!git lfs install
!git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b-32k.git

使用chatglm_cpp的量化脚本convert.py，量化后的模型放在新建的文件夹chatglm.cpp/build 下

!mkdir chatglm.cpp/build
!python3 chatglm.cpp/chatglm_cpp/convert.py -i chatglm3-6b-32k -t q4_0 -o chatglm.cpp/build/chatglm3-6B-32-ggml.bin

下载Cmake

!pip install cmake

使用Cmake编译模型

!cmake -S chatglm.cpp -B chatglm.cpp/build
!cmake --build chatglm.cpp/build -j --config Release

调试运行，其他方法请查看chatglm.cpp的github仓库

!./chatglm.cpp/build/bin/main -m chatglm.cpp/build/chatglm3-6B-32-ggml.bin -p 你能帮我写一篇不少于一千字的科幻小说吗 --top_p 0.8 --temp 0.8

作者说

本人是初学者，这个模型也是作为自己学习使用的。本身没有什么技术含量，README写的也比较简单粗糙，如果你不喜欢请见谅。

chatglm3-6B-32k量化4bit模型

作品详情