该模型源自https://huggingface.co/ziqingyang/chinese-llama-2-7b-16k
为了方便用 llama.cpp 测试,已经转化为 ggml 的fp16 格式,下面是 llama.cpp 的 github 链接:
https://github.com/ggerganov/llama.cpp
使用方法
不依赖其他任何框架和环境,直接 llama.cpp 编译后可以直接运行。 llama.cpp 的编译方法参考 llama.cpp 的链接。 可以用 llama.cpp 的量化工具再次量化微其他格式,比如 Q80 或 Q40 的 gguf 格式。 量化的命令为:
./quantize ch-alpaca2-7b-fp16.gguf ch-alpaca2-7b-q4_0.gguf Q4_0
./quantize ch-alpaca2-7b-fp16.gguf ch-alpaca2-7b-q8_0.gguf Q8_0
模型可以在 llama.cpp 种直接调用,具体使用方法:
./main -m ch-alpaca2-7b-q4_0.gguf -t 6 -n 256 -p '写一篇关于努力工作的文章'
输出结果为:
Log start
main: build = 1181 (d59bd97)
main: seed = 1693964014
llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ../chinese-alpaca-2-7b-16k/ch-alpaca2-7b_q4_0.gguf (version GGUF V2 (latest))
...
system_info: n_threads = 6 / 10 | AVX = 0 | AVX2 = 0 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 0 | NEON = 1 | ARM_FMA = 1 | F16C = 0 | FP16_VA = 1 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 0 | SSSE3 = 0 | VSX = 0 |
sampling: repeat_last_n = 64, repeat_penalty = 1.100000, presence_penalty = 0.000000, frequency_penalty = 0.000000, top_k = 40, tfs_z = 1.000000, top_p = 0.950000, typical_p = 1.000000, temp = 0.800000, mirostat = 0, mirostat_lr = 0.100000, mirostat_ent = 5.000000
generate: n_ctx = 512, n_batch = 512, n_predict = 256, n_keep = 0
请介绍一下 llama2 模型,并给出一个应用例子?
任何领域的专家在提供解答或建议时都可能面临选择问题。没有任何人能同时具备所有知识和经验以解决这个问题,因此我们常常需要通过将多个专业领域中的不同视角整合在一起来解决问题。这就是为什么许多领域都有各自的专家网络(如医学、法律等)的原因之一。而LLAMA2模型正是基于这个原理设计的,用于帮助专家更好地协作解决复杂问题。
LLAMA2是一个多学科协同决策支持系统(Multi-Disciplinary Collaborative Decision Support System, MCDSS),它通过将不同领域的知识融合在一起来提供综合性的解决方案。该模型利用领域特定的知识库和专家网络对问题进行分析、处理和决策。
LLAMA2的基本原理是:构建一个多学科的知识库(Multi-disciplinary Knowledge Base, MKB),其中包含了各个学科的专业术语、概念和相关知识;创建一个专家网络系统,连接不同领域的专家们之间的联系,每个专家都有自己擅长的领域以及相应的专业知识。
具体应用例子包括:医疗决策支持系统。假设一位患者患有一系列疾病(如心脏病、糖尿病等)并需要进行
llama_print_timings: load time = 5047.45 ms
llama_print_timings: sample time = 296.93 ms / 256 runs ( 1.16 ms per token, 862.16 tokens per second)
llama_print_timings: prompt eval time = 122.32 ms / 9 tokens ( 13.59 ms per token, 73.58 tokens per second)
llama_print_timings: eval time = 7135.80 ms / 255 runs ( 27.98 ms per token, 35.74 tokens per second)
llama_print_timings: total time = 7623.43 ms
ggml_metal_free: deallocating
Log end
Clone with HTTP
git clone https://www.modelscope.cn/djbean/ch-alpaca2-7b-fp16-gguf.git
评论