Qwen1.5-7B-Chat-llamafile

我要开发同款
匿名用户2024年07月31日
22阅读
所属分类ai、其他
开源地址https://modelscope.cn/models/bingal/Qwen1.5-7B-Chat-llamafile
授权协议MIT License

作品详情

本方案采用 llamafile 的格式,只需一个文件即可跨平台(macOS, Windows, Linux, FreeBSD, OpenBSD, NetBSD)运行模型,并提供 webui 界面和类 openai api 服务。极大的降低了使用门槛。关于 llamafile 可参考 llamafile使用指南 或者 项目地址(github)

Windows 系统不支持单个 exe 文件超过 4GB,所以需要分别下载 llamafile 和 gguf 模型运行;此外,也可以通过 Windows 的 WSL 子系统(Linux)运行,同样可以绕过 4GB 的限制

Windows 系统

1. 下载 llamafile.exe 程序

下载地址:
https://www.modelscope.cn/api/v1/models/bingal/llamafile-models/repo?Revision=master&FilePath=llamafile-0.6.2.win.zip

下载后解压得到 llamafile-0.6.2.exe 文件。

2. 下载 Qwen1.5-7B-Chat-GGUF 模型

下载地址:
Qwen1.5-7B-Chat-GGUF: 70 亿参数的 q5km 量化版本,5.15GB。

3. 打开 cmd 或者 terminal命令行窗口,进入模型所在目录

.\llamafile-0.6.2.exe -m .\qwen1.5-7b-chat-q5_k_m.gguf -ngl 9999 --port 8080 --host 0.0.0.0

浏览器打开 http://127.0.0.1:8080 即可开始聊天

Linux、Mac 系统

1. 下载 Qwen1.5-7B-Chat 模型

下载地址:
qwen1.5-7B-Chat: 70 亿参数的 q5km 量化版本,5.18GB

2. 运行 Qwen1.5-7B-Chat 模型

  • 终端运行(注意 Mac 系统可能需要授权,在【设置】→ 【隐私与安全】点击【仍然打开】进行授权)
# 授权
chmod +x ./qwen1.5-7b-chat-q5_k_m.llamafile
# 运行
./qwen1.5-7b-chat-q5_k_m.llamafile
  • 浏览器打开 http://127.0.0.1:8080 即可开始聊天

效果截图

Qwen1.5-7B-Chat llamafile 演示

chatbox 等 gpt 客户端使用设置

选择 openai api,设置 url 为对应的 ip 和端口即可,如下图所示: chatbox

python 接口调用

#!/usr/bin/env python3
from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8080/v1", # "http://<Your api-server IP>:port"
    api_key = "sk-no-key-required"
)
completion = client.chat.completions.create(
    model="LLaMA_CPP",
    messages=[
        {"role": "system", "content": "你是一个友好的聊天机器人,善良、诚实、擅长写作和翻译,并且总是能够立即并精确地回答任何请求。"},
        {"role": "user", "content": "写一首龙为主题的诗"}
    ]
)
print(completion.choices[0].message)

可选参数说明

  • -ngl 9999 表示模型的多少层放到 GPU 运行,其他在 CPU 运行,如果没有 GPU 则可设置为 -ngl 0 ,默认是 9999,也就是全部在 GPU 运行(需要装好驱动和 CUDA 运行环境)。
  • --host 0.0.0.0 web 服务的hostname,如果只需要本地访问可设置为 --host 127.0.0.1 ,默认是0.0.0.0 ,即网络内可通过 ip 访问。
  • --port 8080 web服务端口,默认 8080 ,可通过该参数修改。
  • -t 16 线程数,当 cpu 运行的时候,可根据 cpu 核数设定多少个内核并发运行。
  • 其他参数可以通过 --help 查看。

其他 llamafile 模型合集

https://www.modelscope.cn/models/bingal/llamafile-models/summary

Clone with HTTP

 git clone https://www.modelscope.cn/bingal/Qwen1.5-7B-Chat-llamafile.git
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论