flan-t5-xxl-lora教育大模型

我要开发同款
匿名用户2024年07月31日
33阅读
所属分类aipytorch
开源地址https://modelscope.cn/models/lxj616/flan-t5-xxl-lora-chinese-spokesman
授权协议Apache License 2.0

作品详情

flan-t5-xxl-lora

《在24gb显存下教育外国大模型》的示例模型和代码。包含环境Dockerfile,训练代码,生成代码,而且顺带一个QQ机器人示例

https://lxj616.github.io/jekyll/update/2023/03/10/finetune-flan-x5-xxl-under-24gb-vram.html

技术参数

基础模型:flan-t5-xxl 数据集:《外交部发言人答记者问》 训练方式:bitsandbytes 8-bit + lora + peft 训练设备:单RTX 3090Ti (24GB VRAM) 训练参数:见代码

使用方式

参见train_transformer.py来进行训练 参见inference_peft.py来进行生成 QQ机器人示例位于qqbot_example,使用了nonebot2框架,不是一个完整的机器人项目

外交部发言人答记者问数据集

qa_translated_clean_train.jsonl : 训练集10000条问答,全部翻译成了英文 qa_translated_clean_test.jsonl:测试集忘了多少条,里面有http 500错误懒得修了,训练集没有

全部数据来自于网络公开的外交部发言人答记者问,都是公开给国外记者听的,应该完全符合审核的标准,没有任何不合规的内容,毕竟是官方自己公开说的

环境搭建

建议使用Docker进行环境搭建,参见docker_build文件夹下的Dockerfile

国内源都切换好了,国内不好下载的nltk数据给直接丢进去拷贝免下载了

效果示例

在20230427经运营提醒已河蟹删除

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论