TaShan 8x34B
基于PESC方法训练的MOE模型,训练数据由多个中科院院所提供的不同领域知识组成。通过在MoE层插入Adapter进行多领域训练,实现专家模型之间的差异化。
Introduction
通过将星语天文大模型的数据构建、模型训练管道,扩展到参与院所的其它基础学科,
我们整理得到了一批注入专业知识的高质量数据。
通过PESC方法,将Dense模型中的全连接层替换为多专家MoE层,通过在MoE层插入Adapter进行多领域训练,
实现了专家之间差异化,得到了TaShan 8x34B模型。
Performance[CG-Eval]
Model | Activated Params | 物理 | 化学 | 生物 | 天文学 | 地理学 | 医师资格考试 | 注册会计师考试 |
---|---|---|---|---|---|---|---|---|
GPT4 | - | 36.34 | 34.80 | 33.66 | 34.28 | 34.76 | 34.57 | 36.42 |
TaShan-Turbo | 14B | 34.96 | 33.52 | 33.63 | 32.96 | 33.65 | 34.58 | 37.41 |
GPT3.5 | - | 32.89 | 31.55 | 30.07 | 31.06 | 29.84 | 30.91 | 32.68 |
Yi-34B-Chat | 34B | 33.30 | 32.12 | 31.87 | 31.86 | 34.13 | 36.78 | 32.57 |
TaShan-Lite-Astro/Geo | 2.7B | 29.43 | 29.38 | 29.03 | 31.03 | - | 30.06 | 32.57 |
MiniCPM-2B-dpo-bf16 | 2.7B | 30.86 | 30.06 | 28.24 | 30.48 | 30.77 | 29.50 | 32.32 |
Usage
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "your/model/path"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True).eval()
inputs = tokenizer('### Human:\nHow are you?\n### Assistant:\n', return_tensors='pt')
inputs = inputs.to(model.device)
pred = model.generate(**inputs)
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True)# I am doing well, thank you.
他山学科交叉创新协会
中国科学院大学“他山”学科交叉创新协会于2023年11月在中国科学院物理研究所研究生部和中国科学院大学现代产业学院的共同支持下成立。
协会致力于搭建一个大学生进行跨学科交流的平台,自下而上地促进学科交叉融合发展,为科教兴国战略、人才强国战略和创新驱动发展战略的实施贡献力量。
协会一方面以科学知识的传播为核心,与院校合作举行面向大学生的硬核科普沙龙,提升大学生的多学科思维;另一方面以国家重大需求为牵引,以跨领域交流为核心,举行有针对性的、聚焦的学术与产业交互沙龙,注重学科交叉融合的效益产出,赋能科技创新发展。
项目得到了海国智算AI赋能产业计划、国家天文台星语团队,集思谱文献服务平台、阿里云相关平台的支持
To do list
[ ] 协调部署算力,提供各方公共测试渠道
[ ] 参与研究所制定领域Benchmark,评测MOE模型各领域能力
[ ] 参与研究所进一步评测训练数据,根据需求开始训练领域模型
[ ] 协助领域模型在科教科研、智能体场景落地
[ ] 开始二期模型训练
License
项目源码遵从Apache-2.0 license,Yi-34B的模型权重使用需遵从相应许可。
评论