Llama3权重组合

我要开发同款
匿名用户2024年07月31日
30阅读
所属分类ai、llama、pytorch
开源地址https://modelscope.cn/models/q021gink/Llama3-Weighted-Combination
授权协议Apache License 2.0

作品详情

Clone with HTTP

git clone https://www.modelscope.cn/q021gink/Llama3-Weighted-Combination.git

Llama3权重组合

Llama3权重组合基于LLM-Research/Llama3-8B-Chinese-Chat模型权重文件(model-00001-of-00004.safetensors、model-00002-of-00004.safetensors)和FlagAlpha/Llama3-Chinese-8B-Instruct模型文件组合而成。新模型继承了两者优点,如模型1较快的推理速度、弱智吧数据推理、模型2的思维链特征,不过模型依然存在assistant重复、长序列数学计算错误等问题。 本模型旨在提出新的研究视角:同类型同参数不同微调模型权重文件的随机组合,是否有助于提升模型能力(克服不足)或涌现新能力,模块化权重文件设计是否有价值。

如何使用

下载模型

git clone https://www.modelscope.cn/q021gink/Llama3-Weighted-Combination.git

部分情况下需要更新transformer库

pip install --upgrade transformers

测试

根据https://modelscope.cn/headlines/article/473方法测试。

1.1 安装

git clone https://github.com/modelscope/eval-scope
cd eval-scope
pip install -e .

1.2测试命令

python3 llmuses/run.py --model q021gink/Llama3-Weighted-Combination --template-type llama3 --datasets arc ceval gsm8k --dataset-args '{"gsm8k": {"few_shot_num": 0}}'

自测结果:

2024-05-03 21:23:47,879 - llmuses - INFO - Dump data to /root/.cache/llmuses/outputs/eval_arc-ceval-gsm8k_q021gink_Llama3-Weighted-Combination_default/reviews/modelscope_gsm8k_main.jsonl successfully.
2024-05-03 21:23:47,880 - llmuses - INFO - ** Dump report: modelscope_gsm8k.json 
2024-05-03 21:23:47,880 - llmuses - INFO - ** Report table: 
 +-----------------------------+------------------+--------------------+-------------------+
| Model                       | arc              | ceval              | gsm8k             |
+=============================+==================+====================+===================+
| Llama3-Weighted-Combination | (arc/acc) 0.7918 | (ceval/acc) 0.4859 | (gsm8k/acc) 0.655 |
+-----------------------------+------------------+--------------------+-------------------+ 

从前两项测试结果看组合权重模型和原生模型Meta-Llama-3-8B-instruct相差不大(见https://modelscope.cn/headlines/article/473),gsm8k分数下降较大,可见微调导致的灾难遗忘不可避免。 单从前两项测试看,组合权重模型的天花板由原生模型决定。暂不清楚本组合模型父母模型:LLM-Research/Llama3-8B-Chinese-Chat和FlagAlpha/Llama3-Chinese-8B-Instruct模型测试表现如何,感兴趣的朋友可进一步做对比测试。 推测:权重组合不一定涌现新能力,不过可以起到修复作用,如某种微调导致模型能力下降较大,可与原生模型文件进行组合,dropout不好的权重,最大限度保留模型原始能力和部分微调特征。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论