匿名用户2024年07月31日
29阅读
所属分类ai、llama、Pytorch
开源地址https://modelscope.cn/models/AstroYuYang/TaShan-8x34B

作品详情

TaShan 8x34B

基于PESC方法训练的MOE模型,训练数据由多个中科院院所提供的不同领域知识组成。通过在MoE层插入Adapter进行多领域训练,实现专家模型之间的差异化。

Introduction

通过将星语天文大模型的数据构建、模型训练管道,扩展到参与院所的其它基础学科,

我们整理得到了一批注入专业知识的高质量数据。

通过PESC方法,将Dense模型中的全连接层替换为多专家MoE层,通过在MoE层插入Adapter进行多领域训练,

实现了专家之间差异化,得到了TaShan 8x34B模型。

Performance[CG-Eval]

Model Activated Params 物理 化学 生物 天文学 地理学 医师资格考试 注册会计师考试
GPT4 - 36.34 34.80 33.66 34.28 34.76 34.57 36.42
TaShan-Turbo 14B 34.96 33.52 33.63 32.96 33.65 34.58 37.41
GPT3.5 - 32.89 31.55 30.07 31.06 29.84 30.91 32.68
Yi-34B-Chat 34B 33.30 32.12 31.87 31.86 34.13 36.78 32.57
TaShan-Lite-Astro/Geo 2.7B 29.43 29.38 29.03 31.03 - 30.06 32.57
MiniCPM-2B-dpo-bf16 2.7B 30.86 30.06 28.24 30.48 30.77 29.50 32.32

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "your/model/path"

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True).eval()

inputs = tokenizer('### Human:\nHow are you?\n### Assistant:\n', return_tensors='pt')
inputs = inputs.to(model.device)
pred = model.generate(**inputs)
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True)# I am doing well, thank you.

他山学科交叉创新协会

中国科学院大学“他山”学科交叉创新协会于2023年11月在中国科学院物理研究所研究生部和中国科学院大学现代产业学院的共同支持下成立。

协会致力于搭建一个大学生进行跨学科交流的平台,自下而上地促进学科交叉融合发展,为科教兴国战略、人才强国战略和创新驱动发展战略的实施贡献力量。

协会一方面以科学知识的传播为核心,与院校合作举行面向大学生的硬核科普沙龙,提升大学生的多学科思维;另一方面以国家重大需求为牵引,以跨领域交流为核心,举行有针对性的、聚焦的学术与产业交互沙龙,注重学科交叉融合的效益产出,赋能科技创新发展。

项目得到了海国智算AI赋能产业计划、国家天文台星语团队,集思谱文献服务平台、阿里云相关平台的支持

To do list

  • [ ] 协调部署算力,提供各方公共测试渠道

  • [ ] 参与研究所制定领域Benchmark,评测MOE模型各领域能力

  • [ ] 参与研究所进一步评测训练数据,根据需求开始训练领域模型

  • [ ] 协助领域模型在科教科研、智能体场景落地

  • [ ] 开始二期模型训练

License

项目源码遵从Apache-2.0 license,Yi-34B的模型权重使用需遵从相应许可。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论