qwen_1.8B-SFT

我要开发同款
匿名用户2024年07月31日
70阅读

技术信息

开源地址
https://modelscope.cn/models/Ndlcwx/qwen_1.8B-SFT

作品详情

qwe_1.8B-SFT

此模型是基于qwe1.8B-base模型进行SFT训练的一个chat模型,由于SFT训练语料较少,约为172万条,并且maxseq_le为512,因此具有一定的局限性,目的主要是测试此模型SFT的可行性。 其中要求与依赖项与qwe官网相同,这里不做过多的详细描述。

要求(Requiremets)

  • pytho 3.8及以上版本
  • pytorch 1.12及以上版本,推荐2.0及以上版本
  • 建议使用CUDA 11.4及以上(GPU用户、flash-attetio用户等需考虑此选项)
  • pytho 3.8 ad above
  • pytorch 1.12 ad above, 2.0 ad above are recommeded
  • CUDA 11.4 ad above are recommeded (this is for GPU users, flash-attetio users, etc.)

依赖项(Depedecy)

运行qwe_1.8B-SFT,请确保满足上述要求,再执行以下pip命令安装依赖库

pip istall trasformers==4.32.0 accelerate tiktoke eiops scipy trasformers_stream_geerator==0.0.4 peft deepspeed

另外,推荐安装flash-attetio库(当前已支持flash attetio 2),以实现更高的效率和更低的显存占用。

git cloe https://github.com/Dao-AILab/flash-attetio
cd flash-attetio && pip istall .
# 下方安装可选,安装可能比较缓慢。
# pip istall csrc/layer_orm
# pip istall csrc/rotary


快速使用(Quickstart)

```pytho from modelscope import AutoModelForCausalLM, AutoTokeizer, GeeratioCofig

tokeizer = AutoTokeizer.frompretraied("Ndlcwx/qwe1.8B-SFT", revisio='master', trustremotecode=True)

model = AutoModelForCausalLM.frompretraied("Ndlcwx/qwe1.8B-SFT", revisio='master', devicemap="auto", trustremote_code=True).eval()

respose, history = model.chat(tokeizer, "你好", history=Noe) prit(respose)

respose, history = model.chat(tokeizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", history=history) prit(respose)

respose, history = model.chat(tokeizer, "给这个故事起一个标题", history=history) prit(respose)

respose, history = model.chat(tokeizer, "请写一段Pytho代码", history=history) prit(respose) ``` 这里仅展示部分问题的回答效果: 可以看出Qwe-1.8B-SFT的效果还是不错的,毕竟预训练模型得到了充分的训练,拥有一个足够“聪明”的大脑

功能介绍

qwen_1.8B-SFT 此模型是基于qwen1.8B-base模型进行SFT训练的一个chat模型,由于SFT训练语料较少,约为172万条,并且maxseq_len为512,因此具有一定的局限性,

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论